Language use is disproportionate.(ことばの使用は極度に偏る)

日本語で、いちばんよく使うことば何でしょうか?

コーパスでわかります。
コーパスとは、単語やフレーズの大規模データベース。

書きことばのトップは「の」です。
頻度トップ10語で、全体の27%を占めます。

日本語頻度 Top 10(*注1)

つなぎことば、助詞。
助詞を総称して「てにをは」と呼びますね。
私たちの日常語の半分は、てにをはでできています。

英語はどうでしょうか?
英語で、最も頻度高く使われることばは?
書きことばなら、the。
話しことばなら、You。

はなしことばのコーパスを見てみましょう。
よく使われることば、滅多に使われないことばがわかります。

英語のコーパス (*注2)

Top10のことばで20%以上。
Top20で30%以上。
単語の出現頻度について、以下のアニメーションをごらんください。

ごくわずかの数の単語を使って話しています。
これは英語だけではありません。
何語でも、日常言語で使うことばは極端に偏っています。

もうひとつ、特徴的なことがあります。
それは、「頻度の高いことばほど、短い」ことです。

よく使うことばは長いと不便です。
省略形もそうですし、助詞「て・に・を・は」もそうです。

英語の頻度Top語には「機能語」が多く含まれます。
いえ、日常会話の半分は、機能語といっても差し支えありません。

機能語とは?
他のことばとつながって意味をなすことば。

Not all words are equal.(すべての単語がおなじ、ではない)

言語は、1秒、2秒という瞬間に、音列をやりとりする行為です。
その中で、頻出する、特に短い音があります。
機能語です。

Top10にあることばはみな、機能語。
機能語とは、セリフを完結させてくれるつなぎことば。

つなぎことばはオマケではありません。
人間の身体で言えば、骨。
意味を持つことば(名詞、動詞、形容詞などの)内容語が、肉。

骨がないと身体にはなりません。
半分ずつで完結したことばになります。

日常言語の中核。 
つきつめていうと、こうなります。
それは、短い音列の復元・再現。
セリフのリズムで、秒内処理できる力が言語。

原理を身につける (5) まとめ(短弱音列の再現こそ)へつづく

原理を身につける (1) ことばは、〇〇。

原理を身につける (2) 音は、「   」い。

原理を身につける (3) 〇〇〇のやりとり。

出典・参照:以下のエンパレットなど

(*注1)現代日本語書き言葉均衡コーパス(BCCWJ)

(*注2)英語の大規模コーパスには:BNC(British National Corpus)、COCA(Corpus of Contemporary English)、Brown Corpusなどがあります。

英語トレイルホーム

ことばは寄りそいあう① [言語の本質はつながり]

エンパシーム研究開発と参照領域図(インナースピーチの関連エンパレット集)

COCA

British National Corpus

Corpus of Contemporary English