インドネシア語単語 出現頻度ランキング

CIMG0654

インドネシア語の新聞・ニュース記事を分析し、約1億438万語を対象に、出現頻度ランキングを作成しました。

インドネシア語検定(特A級、A級、B級)の対策などにご利用頂けます。

下記ダウンロードリンクより、.txt形式のファイルをダウンロード頂けます。

以下の利用条件と注意事項をお読みの上、ダウンロードしてください。

データの概要

出現頻度ランキングを作成するにあたり、以下のコーパスデータを基にしています。

データ
総語数約1億438万語

ユニーク語数約84万語(重複を除いてカウントした数)

ソースオンラインの新聞・ニュース記事

文体書き言葉

内容オンラインの新聞・ニュースで扱う内容全般(政治、経済、金融、ビジネス、スポーツ、生活、エンターテインメント、科学、IT、その他)

利用条件

以下の利用条件に同意した場合のみ、データ(インドネシア語単語 出現頻度ランキング)をご利用頂けます。

利用条件
  • 当サイトのデータ利用による損害・損失等について、当サイトは如何なる責任も負いません。また、データの正確性も保証しません。自己責任でご利用ください。
  • データは商用・非商用を問わずご自由に利用・改変・頒布頂けますが、必ず当サイトへのリンク等をもって出典を示してください。
  • 著作権は当サイトが保持しています。

注意事項

データの形式と内容について、いくつか注意事項があります。

注意事項
  • データの表示形式は、「順位」「単語」「出現回数」の順に並んでいる
  • 全て小文字に変換してカウント
  • 基語と変化形を、それぞれ別の単語としてカウント
  • 半角英数または半角ハイフンで構成される、他の言語が含まれていることがある(例:英語)

ダウンロード

ファイルは「フルバージョン」と「10,000語バージョン」の2種類を用意しました。

「フルバージョン」は全単語を収録、「10,000語バージョン」は上位10,000語のみを収録しています。

用途に合わせてご利用ください。

ダウンロード

単語の取得

出現頻度ランキングの単語は、インドネシア語の文章をコンピュータに渡して、自動的に取得しています。

その際に、以下の考え方で単語を取得しています。

単語の取得基準
  • スペースで区切って得られた文字列を単語とする
  • 半角英数と半角ハイフン以外の文字は削除する
  • 半角ハイフンは単語と単語の間に入り、2つ以上連続しないようにする
  • 半角英数を含まない単語は除外する

終わりに

今回は出現頻度ランキングを公開しただけでしたが、そのうち他のことにも活かせたらと考えています。

例えば、インドネシア語検定の試験問題が、どのレベルの単語を使用しているかを調べても面白そうですね。

広告