Language use is disproportionate.(ことばの使用は極度に偏る)

日本語で、いちばんよく使うことば何でしょうか?

コーパスでわかります。
コーパスとは、単語やフレーズの大規模データベース。

書きことばのトップは「の」です。
頻度トップ10語で、全体の27%を占めます。

日本語頻度 Top 10(*注1)

つなぎことば、助詞。
助詞を総称して「てにをは」と呼びますね。
私たちの日常語の半分は、てにをはでできています。

英語はどうでしょうか?
英語で、最も頻度高く使われることばは?
書きことばなら、the。
話しことばなら、You。

はなしことばのコーパスを見てみましょう。
よく使われることば、滅多に使われないことばがわかります。

英語のコーパス (*注2)

Top10のことばで20%以上。
Top20で30%以上。
単語の出現頻度について、以下のアニメーションをごらんください。

ごくわずかの数の単語を使って話しています。
これは英語だけではありません。
何語でも、日常言語で使うことばは極端に偏っています。

もうひとつ、特徴的なことがあります。
それは、「頻度の高いことばほど、短い」ことです。

よく使うことばは長いと不便です。
省略形もそうですし、助詞「て・に・を・は」もそうです。

英語の頻度Top語には「機能語」が多く含まれます。
いえ、日常会話の半分は、機能語といっても差し支えありません。

機能語とは?
他のことばとつながって意味をなすことば。

Not all words are equal.(すべての単語がおなじ、ではない)

言語は、1秒、2秒という瞬間に、音列をやりとりする行為です。
その中で、頻出する、特に短い音があります。
機能語です。

Top10にあることばはみな、機能語。
機能語とは、セリフを完結させてくれるつなぎことば。

つなぎことばはオマケではありません。
人間の身体で言えば、骨。
意味を持つことば(名詞、動詞、形容詞などの)内容語が、肉。

骨がないと身体にはなりません。
半分ずつで完結したことばになります。

日常言語の中核。 
つきつめていうと、こうなります。
それは、短い音列の復元・再現。
セリフのリズムで、秒内処理できる力が言語。

原理を身につける (1) ことばは、〇〇。

原理を身につける (2) 音は、「   」い。

原理を身につける (3) 〇〇〇のやりとり。

出典・参照:以下のエンパレットなど

(*注1)現代日本語書き言葉均衡コーパス(BCCWJ)

(*注2)英語の大規模コーパスには:BNC(British National Corpus)、COCA(Corpus of Contemporary English)、Brown Corpusなどがあります。

英語トレイルホーム

ことばは寄りそいあう① [言語の本質はつながり]

エンパシーム研究開発と参照領域図(インナースピーチの関連エンパレット集)

COCA

British National Corpus

Corpus of Contemporary English