AIはいかにして文を「理解」するのか?言語理論をまとめてみた
非営利団体のオープンAIが開発した「フェイクニュース量産ツール」は、悪用が懸念され、オープンソース化が控えられた。同ツールをはじめとする自然言語処理システムは、どのようにして文章を「理解」するのだろうか。現在、自然言語処理で主流となっている4つの言語理論について説明する。 by Karen Hao2019.02.20
非営利の研究団体であるオープンAI(OpenAI)は2月14日、もっともらしい文章を作成できる新たな言語モデルをリリースした。実際、あまりにももっともらしい文章を作るので、オープンAIの研究者は、フェイクニュースを大量生産する手段として悪用されないように、言語モデルのコードのオープンソース化は控えることにした。
https://twitter.com/gdb/status/1096098366545522688?ref_src=twsrc%5Etfw
オープンAIのシステムは、既存の言語モデルがこれまでに達成したレベルをはるかに超える目覚ましい成果であるが、この言語モデルに関わる技術自体はまったく新しいわけではない。今回の飛躍的な成果は主に、かつてないほど多くの訓練データを機械学習アルゴリズムに与えることで達成された。機械学習アルゴリズムに大量の訓練データを与える手法はほかにも、AIに読み書きを教える分野における昨今の進展のほとんどに寄与してきた。「より多くのデータとより大きなモデルで達成できることを知ると、人々は少なからず驚きます」とスタンフォード大学のパーシー・リャン教授(コンピューター科学)は述べる。
オープンAIの言語モデルが作成する文章は、人間が書いた文章のように見えるほど質が高い。だが、この機能を、言語を真に理解する能力と混同してはならない。コンピューターに言語を完全に理解させることは、自然言語処理(NLP)として知られるAIの一分野の研究の最終目標となっている(コンピュータービジョンの分野においても類似点がある。コンピュータービジョンのアルゴリズムは、本当の意味で視覚的に理解する能力を持っていないが、極めてリアルな画像を合成できる)。実際、機械に人間レベルの理解能力を与えるために、自然言語処理の研究者たちは苦心している。目標の達成には、数年あるいは数十年かかるかもしれず、いまだに存在しない技術が必要になる可能性が高いとリャン教授は推測する。
現在、4つの言語理論が自然言語処理技術の開発を牽引している。オープンAIが用いる言語理論から始めて、順に説明しよう。
1. 分布意味論
言語理論:単語の意味は、それがどのように使われるかに由来する。たとえば、「猫」という単語と「犬」という単語は、ほとんど同じように使用されるため、互いに意味的に関連している。猫も犬も、餌を与えたり撫でたりできる。だが、オレンジに餌を与えたり撫でたりすることはできない。
自然言語処理への応用方法:分布意味論に基づくアルゴリズムは、昨今の自然言語処理分野の発展に大きく寄与している。こうしたアルゴリズムは、機械学習を用いて文章を処理し、本質的には、単語同士が相互の関連においてどれくらいの頻度でどれくらい密接に使用されているかを計測してパターンを見つけ出す。その結果とし …
- 人気の記事ランキング
-
- Bringing the lofty ideas of pure math down to earth 崇高な理念を現実へ、 物理学者が学び直して感じた 「数学」を学ぶ意義
- Promotion Innovators Under 35 Japan × CROSS U 無料イベント「U35イノベーターと考える研究者のキャリア戦略」のご案内
- Google’s new Project Astra could be generative AI’s killer app 世界を驚かせたグーグルの「アストラ」、生成AIのキラーアプリとなるか
- These AI Minecraft characters did weirdly human stuff all on their own マイクラ内に「AI文明」、 1000体のエージェントが 仕事、宗教、税制まで作った
- AI’s search for more energy is growing more urgent 生成AIの隠れた代償、激増するデータセンターの環境負荷