以前作成したインドネシア語 出現頻度単語ランキングを利用して、単語レベルを分析しました。
インドネシアのニュース記事に限って言えば、約3,700語で全単語の80%をカバーし、約10,100語で90%をカバーしていることが分かりました。
カバー率
カバー率とは、文章に出てくる単語のうち、指定する単語が占める割合のことを言います。
例えば、「Saya orang Jepang.」という3語の文があったとして、単語「orang」の1語のみを知っている場合、知っている単語のカバー率は33.3%(1 / 3)となります。
では、さっそくカバー率の表を見てみましょう。
[ インドネシア語単語カバー率 ]| カバー率(%) | 必要単語数(語) |
|---|---|
| 0 | 0 |
| 5 | 3 |
| 10 | 8 |
| 15 | 17 |
| 20 | 33 |
| 25 | 57 |
| 30 | 94 |
| 35 | 146 |
| 40 | 213 |
| 45 | 309 |
| 50 | 439 |
| 55 | 616 |
| 60 | 855 |
| 65 | 1,195 |
| 70 | 1,693 |
| 75 | 2,446 |
| 80 | 3,658 |
| 85 | 5,778 |
| 90 | 10,093 |
| 95 | 23,268 |
| 100 | 846,630 |
表の見方としては、「××語の単語を知っていると、○○%をカバーできている。」と考えると分かりやすいです。
例えば、439語の単語を知っていると、50%をカバーできていることになります。
カバー率の分析
上記のカバー率表から、特徴的な点について見ていきましょう。
5%(3語)
3語の単語を知っていると、文章中の単語のうち5%を知っていることになります。
たった3語で!驚きですね。
この3語は以下の単語になります。
- yang
- di
- dan
10%(8語)
更に10%のカバー率を見てみましょう。
8語知っているだけで、文章中の単語を10%知っていることになります。
- yang
- di
- dan
- ini
- itu
- dengan
- dari
- untuk
- akan
- dalam
85~95%(5,778~23,368語)
5,778語で85%、10,093語で90%、23,268語で95%をカバーします。
学習の観点から言えば、この辺りが伸び悩む時期です。
なぜなら、覚える単語の数に対して、カバー率があまり増えないためです。
5,778語で85%をカバーしていますが、そこからカバー率をたった5%上げるためだけに、ほぼ同数の単語を覚えなければなりません。
コストパフォーマンスがとても悪いです。
そもそも5,778語を覚えるだけでも大変です。
90%から95%にするのも同様で、追加で約10,000語を覚えるという労力の割に、カバー率があまり上昇しません。
100%(846,630語)
今回利用しているコーパスの範囲では、846,630語で100%の範囲をカバーすることができます。
学習の観点から見ると、846,630語の単語を覚えることは、現実的ではありません。
出現頻度順による単語学習は90~95%レベルを目標にして、その後は、専門分野に特化したり、他の能力をアップしたりすることに時間を費やすべきです。
終わりに
単語のリストは以前の記事(インドネシア語 出現頻度単語ランキング)でダウンロードできます。
興味ある方はチェックしてみてください。

コメント