AIはいかにして文を「理解」するのか？言語理論をまとめてみた

非営利団体のオープンAIが開発した「フェイクニュース量産ツール」は、悪用が懸念され、オープンソース化が控えられた。同ツールをはじめとする自然言語処理システムは、どのようにして文章を「理解」するのだろうか。現在、自然言語処理で主流となっている4つの言語理論について説明する。 by Karen Hao2019.02.20

非営利の研究団体であるオープンAI（OpenAI）は2月14日、もっともらしい文章を作成できる新たな言語モデルをリリースした。実際、あまりにももっともらしい文章を作るので、オープンAIの研究者は、フェイクニュースを大量生産する手段として悪用されないように、言語モデルのコードのオープンソース化は控えることにした。

https://twitter.com/gdb/status/1096098366545522688?ref_src=twsrc%5Etfw

オープンAIのシステムは、既存の言語モデルがこれまでに達成したレベルをはるかに超える目覚ましい成果であるが、この言語モデルに関わる技術自体はまったく新しいわけではない。今回の飛躍的な成果は主に、かつてないほど多くの訓練データを機械学習アルゴリズムに与えることで達成された。機械学習アルゴリズムに大量の訓練データを与える手法はほかにも、AIに読み書きを教える分野における昨今の進展のほとんどに寄与してきた。「より多くのデータとより大きなモデルで達成できることを知ると、人々は少なからず驚きます」とスタンフォード大学のパーシー・リャン教授（コンピューター科学）は述べる。

オープンAIの言語モデルが作成する文章は、人間が書いた文章のように見えるほど質が高い。だが、この機能を、言語を真に理解する能力と混同してはならない。コンピューターに言語を完全に理解させることは、自然言語処理（NLP）として知られるAIの一分野の研究の最終目標となっている（コンピュータービジョンの分野においても類似点がある。コンピュータービジョンのアルゴリズムは、本当の意味で視覚的に理解する能力を持っていないが、極めてリアルな画像を合成できる）。実際、機械に人間レベルの理解能力を与えるために、自然言語処理の研究者たちは苦心している。目標の達成には、数年あるいは数十年かかるかもしれず、いまだに存在しない技術が必要になる可能性が高いとリャン教授は推測する。

現在、4つの言語理論が自然言語処理技術の開発を牽引している。オープンAIが用いる言語理論から始めて、順に説明しよう。

1. 分布意味論

言語理論：単語の意味は、それがどのように使われるかに由来する。たとえば、「猫」という単語と「犬」という単語は、ほとんど同じように使用されるため、互いに意味的に関連している。猫も犬も、餌を与えたり撫でたりできる。だが、オレンジに餌を与えたり撫でたりすることはできない。

自然言語処理への応用方法：分布意味論に基づくアルゴリズムは、昨今の自然言語処理分野の発展に大きく寄与している。こうしたアルゴリズムは、機械学習を用いて文章を処理し、本質的には、単語同士が相互の関連においてどれくらいの頻度でどれくらい密接に使用されているかを計測してパターンを見つけ出す。その結果とし …

こちらは有料会員限定の記事です。 有料会員になると制限なしにご利用いただけます。

有料会員にはメリットがいっぱい！

毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
重要テーマが押さえられる。
各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。

【春割】実施中！年間購読料20%オフ！

人気の記事ランキング