Language use is disproportionate.(ことばの使用は極度に偏る)
日本語で、いちばんよく使うことば何でしょうか?
コーパスでわかります。
コーパスとは、単語やフレーズの大規模データベース。
書きことばのトップは「の」です。
頻度トップ10語で、全体の27%を占めます。
つなぎことば、助詞。
助詞を総称して「てにをは」と呼びますね。
私たちの日常語の半分は、てにをはでできています。
英語はどうでしょうか?
英語で、最も頻度高く使われることばは?
書きことばなら、the。
話しことばなら、You。
はなしことばのコーパスを見てみましょう。
よく使われることば、滅多に使われないことばがわかります。
Top10のことばで20%以上。
Top20で30%以上。
単語の出現頻度について、以下のアニメーションをごらんください。
ごくわずかの数の単語を使って話しています。
これは英語だけではありません。
何語でも、日常言語で使うことばは極端に偏っています。
もうひとつ、特徴的なことがあります。
それは、「頻度の高いことばほど、短い」ことです。
よく使うことばは長いと不便です。
省略形もそうですし、助詞「て・に・を・は」もそうです。
英語の頻度Top語には「機能語」が多く含まれます。
いえ、日常会話の半分は、機能語といっても差し支えありません。
機能語とは?
他のことばとつながって意味をなすことば。
Not all words are equal.(すべての単語がおなじ、ではない)
言語は、1秒、2秒という瞬間に、音列をやりとりする行為です。
その中で、頻出する、特に短い音があります。
機能語です。
Top10にあることばはみな、機能語。
機能語とは、セリフを完結させてくれるつなぎことば。
つなぎことばはオマケではありません。
人間の身体で言えば、骨。
意味を持つことば(名詞、動詞、形容詞などの)内容語が、肉。
骨がないと身体にはなりません。
半分ずつで完結したことばになります。
日常言語の中核。
つきつめていうと、こうなります。
それは、短い音列の復元・再現。
セリフのリズムで、秒内処理できる力が言語。
原理を身につける (5) まとめ(短弱音列の再現こそ)へつづく
出典・参照:以下のエンパレットなど
(*注1)現代日本語書き言葉均衡コーパス(BCCWJ)
(*注2)英語の大規模コーパスには:BNC(British National Corpus)、COCA(Corpus of Contemporary English)、Brown Corpusなどがあります。
エンパシーム研究開発と参照領域図(インナースピーチの関連エンパレット集)
Corpus of Contemporary English