1935年にアメリカの言語学者ジョージ・ジップは驚くべき発見をした。一般的な単語と一般的でない単語との関係に興味を抱いたジップは、日常言語に出現する単語の頻度を数えて、頻度順に単語を順序付けしたのだ。
すると、顕著な規則性が明らかになった。ジップは単語の出現頻度が、その単語のランキングの順位に反比例していることを発見した。つまり、出現頻度のランキング2位の単語は、ランキング1位の最も一般的な単語の半分の頻度で出現する。ランキング3位の単語の出現頻度は、ランキング1位の単語の3分の1という具合だ。
英語で最もよく使われる単語は「the」であり、すべての単語のおよそ7%を占める。次が、3.5%の確率で出現する「and」という具合だ。実際、およそ135個の単語が、出現するすべての単語の半分を占める。したがって、少数の単語が頻繁に出現する一方で、大半の単語はめったに出現しないことになる。
どうしてだろうか? 1つの面白い可能性として、脳が一般的な単語を他の単語とは違う方法で処理しているということが挙げられる。ジップの分布を研究すれば、脳の処理に関する重要な知見が得られるかもしれないということだ。
だが、単語頻度の統計的分布が認知処理の結果であることに同意しない言語学者もいる。一部の言語学者は、こうした分布は認知処理の結果ではなく、似通った分布を生じさせる可能性がある低頻度の単語に伴う統計誤差の結果だという。
当然、必要とされるのは、広範囲の種類の言語にわたるより大規模な調査だ。大規模な調査は統計的により強力であるため、そうした可能性を解明できるだろう。
北京の中国伝媒大学のシュイユアン・ユー博士と同僚の研究のおかげで、現在まさにそのような調査の結果を目の当たりにできる。彼らは広範囲に及ぶ言語類から抽出したインド・ヨーロッパ語、ウラル語、アルタイ語、コーカサス語、シナ・チベット語、ドラヴィダ語、アフロ・アジア語などを含む50の言語で、ジップの法則が成立することを見い出した。
ユー博士と同僚によると、これらの言語に見られる単語頻度には、統計誤差から生じる構造とは異なる共通の構造があるという。さらにこの構造は、脳が一般的な単語を、耳慣れない単語とは異なる方法で処理していることを示唆していると語る。この考え方は自然言語処理とテキストの自動生成に重要な影響を及ぼす。
ユー博士と同僚の手法は単純だ。調査の出発点はブリティッシュ・ナショナル・コーパス(British National Corpus)とライプツィヒ・コーパス(Leipzig Corpus)と呼ばれる2つの大規模なテキストのコレクションだ。これらのコレクションには50の異なる言語のサンプルが含まれており、それぞれの言語 …