インドネシア語の新聞・ニュース記事を分析し、約1億438万語を対象に、出現頻度ランキングを作成しました。
インドネシア語検定(特A級、A級、B級)の対策などにご利用頂けます。
下記ダウンロードリンクより、.txt形式のファイルをダウンロード頂けます。
以下の利用条件と注意事項をお読みの上、ダウンロードしてください。
データの概要
出現頻度ランキングを作成するにあたり、以下のコーパスデータを基にしています。
データ
総語数約1億438万語
ユニーク語数約84万語(重複を除いてカウントした数)
ソースオンラインの新聞・ニュース記事
文体書き言葉
内容オンラインの新聞・ニュースで扱う内容全般(政治、経済、金融、ビジネス、スポーツ、生活、エンターテインメント、科学、IT、その他)
利用条件
以下の利用条件に同意した場合のみ、データ(インドネシア語単語 出現頻度ランキング)をご利用頂けます。
利用条件
- 当サイトのデータ利用による損害・損失等について、当サイトは如何なる責任も負いません。また、データの正確性も保証しません。自己責任でご利用ください。
- データは商用・非商用を問わずご自由に利用・改変・頒布頂けますが、必ず当サイトへのリンク等をもって出典を示してください。
- 著作権は当サイトが保持しています。
注意事項
データの形式と内容について、いくつか注意事項があります。
注意事項
- データの表示形式は、「順位」「単語」「出現回数」の順に並んでいる
- 全て小文字に変換してカウント
- 基語と変化形を、それぞれ別の単語としてカウント
- 半角英数または半角ハイフンで構成される、他の言語が含まれていることがある(例:英語)
ダウンロード
ファイルは「フルバージョン」と「10,000語バージョン」の2種類を用意しました。
「フルバージョン」は全単語を収録、「10,000語バージョン」は上位10,000語のみを収録しています。
用途に合わせてご利用ください。
ダウンロード
単語リスト(フル) 16.78 MB
単語リスト(10,000語) 185.76 KB
単語の取得
出現頻度ランキングの単語は、インドネシア語の文章をコンピュータに渡して、自動的に取得しています。
その際に、以下の考え方で単語を取得しています。
単語の取得基準
- スペースで区切って得られた文字列を単語とする
- 半角英数と半角ハイフン以外の文字は削除する
- 半角ハイフンは単語と単語の間に入り、2つ以上連続しないようにする
- 半角英数を含まない単語は除外する
終わりに
今回は出現頻度ランキングを公開しただけでしたが、そのうち他のことにも活かせたらと考えています。
例えば、インドネシア語検定の試験問題が、どのレベルの単語を使用しているかを調べても面白そうですね。