【インドネシア語】単語レベル分析

IMG_9419

以前作成したインドネシア語 出現頻度単語ランキングを利用して、単語レベルを分析しました。

インドネシアのニュース記事に限って言えば、約3,700語で全単語の80%をカバーし、約10,100語で90%をカバーしていることが分かりました。

カバー率

カバー率とは、文章に出てくる単語のうち、指定する単語が占める割合のことを言います。

例えば、「Saya orang Jepang.」という3語の文があったとして、単語「orang」の1語のみを知っている場合、知っている単語のカバー率は33.3%(1 / 3)となります。

では、さっそくカバー率の表を見てみましょう。

[ インドネシア語単語カバー率 ]
カバー率(%) 必要単語数(語)
0 0
5 3
10 8
15 17
20 33
25 57
30 94
35 146
40 213
45 309
50 439
55 616
60 855
65 1,195
70 1,693
75 2,446
80 3,658
85 5,778
90 10,093
95 23,268
100 846,630

表の見方としては、「××語の単語を知っていると、○○%をカバーできている。」と考えると分かりやすいです。

例えば、439語の単語を知っていると、50%をカバーできていることになります。

カバー率の分析

上記のカバー率表から、特徴的な点について見ていきましょう。

5%(3語)

3語の単語を知っていると、文章中の単語のうち5%を知っていることになります。

たった3語で!驚きですね。

この3語は以下の単語になります。

  1. yang
  2. di
  3. dan

10%(8語)

更に10%のカバー率を見てみましょう。

8語知っているだけで、文章中の単語を10%知っていることになります。

  1. yang
  2. di
  3. dan
  4. ini
  5. itu
  6. dengan
  7. dari
  8. untuk
  9. akan
  10. dalam

85~95%(5,778~23,368語)

5,778語で85%、10,093語で90%、23,268語で95%をカバーします。

学習の観点から言えば、この辺りが伸び悩む時期です。

なぜなら、覚える単語の数に対して、カバー率があまり増えないためです。

5,778語で85%をカバーしていますが、そこからカバー率をたった5%上げるためだけに、ほぼ同数の単語を覚えなければなりません。

コストパフォーマンスがとても悪いです。

そもそも5,778語を覚えるだけでも大変です。

90%から95%にするのも同様で、追加で約10,000語を覚えるという労力の割に、カバー率があまり上昇しません。

100%(846,630語)

今回利用しているコーパスの範囲では、846,630語で100%の範囲をカバーすることができます。

学習の観点から見ると、846,630語の単語を覚えることは、現実的ではありません。

出現頻度順による単語学習は90~95%レベルを目標にして、その後は、専門分野に特化したり、他の能力をアップしたりすることに時間を費やすべきです。

終わりに

単語のリストは以前の記事(インドネシア語 出現頻度単語ランキング)でダウンロードできます。

興味ある方はチェックしてみてください。

広告