以前作成したインドネシア語 出現頻度単語ランキングを利用して、単語レベルを分析しました。
インドネシアのニュース記事に限って言えば、約3,700語で全単語の80%をカバーし、約10,100語で90%をカバーしていることが分かりました。
カバー率
カバー率とは、文章に出てくる単語のうち、指定する単語が占める割合のことを言います。
例えば、「Saya orang Jepang.」という3語の文があったとして、単語「orang」の1語のみを知っている場合、知っている単語のカバー率は33.3%(1 / 3)となります。
では、さっそくカバー率の表を見てみましょう。
[ インドネシア語単語カバー率 ]
カバー率(%) | 必要単語数(語) |
---|---|
0 | 0 |
5 | 3 |
10 | 8 |
15 | 17 |
20 | 33 |
25 | 57 |
30 | 94 |
35 | 146 |
40 | 213 |
45 | 309 |
50 | 439 |
55 | 616 |
60 | 855 |
65 | 1,195 |
70 | 1,693 |
75 | 2,446 |
80 | 3,658 |
85 | 5,778 |
90 | 10,093 |
95 | 23,268 |
100 | 846,630 |
表の見方としては、「××語の単語を知っていると、○○%をカバーできている。」と考えると分かりやすいです。
例えば、439語の単語を知っていると、50%をカバーできていることになります。
カバー率の分析
上記のカバー率表から、特徴的な点について見ていきましょう。
5%(3語)
3語の単語を知っていると、文章中の単語のうち5%を知っていることになります。
たった3語で!驚きですね。
この3語は以下の単語になります。
- yang
- di
- dan
10%(8語)
更に10%のカバー率を見てみましょう。
8語知っているだけで、文章中の単語を10%知っていることになります。
- yang
- di
- dan
- ini
- itu
- dengan
- dari
- untuk
- akan
- dalam
85~95%(5,778~23,368語)
5,778語で85%、10,093語で90%、23,268語で95%をカバーします。
学習の観点から言えば、この辺りが伸び悩む時期です。
なぜなら、覚える単語の数に対して、カバー率があまり増えないためです。
5,778語で85%をカバーしていますが、そこからカバー率をたった5%上げるためだけに、ほぼ同数の単語を覚えなければなりません。
コストパフォーマンスがとても悪いです。
そもそも5,778語を覚えるだけでも大変です。
90%から95%にするのも同様で、追加で約10,000語を覚えるという労力の割に、カバー率があまり上昇しません。
100%(846,630語)
今回利用しているコーパスの範囲では、846,630語で100%の範囲をカバーすることができます。
学習の観点から見ると、846,630語の単語を覚えることは、現実的ではありません。
出現頻度順による単語学習は90~95%レベルを目標にして、その後は、専門分野に特化したり、他の能力をアップしたりすることに時間を費やすべきです。
終わりに
単語のリストは以前の記事(インドネシア語 出現頻度単語ランキング)でダウンロードできます。
興味ある方はチェックしてみてください。