Siriやコルタナ、アレクサと会話しようとすれば、短い会話でもイライラしてきて、最後には頭がおかしくなって、机を殴りたくなってしまう。
音声アシスタントは単純な質問であれば上手に答えられるが、複雑な要求に応じたり、堂々巡りの議論になったりするとおぼつかなくなる。しかし、今後数年以内に、機械学習の新手法が適用されれば、人間と機械が対話するときの課題はずっと改善されるはずだ。
アップルのSiriチームで非常勤研究者を務めるケンブリッジ大学のスティーブ・ヤング教授は人工知能関連の重要なカンファレンスで登壇し、アップルでの仕事については述べなかったが、大学での研究について説明し、近年の進歩により、対話システムがどう改善され始めたかを講演した。
Siri等の初期の音声アシスタントは、機械学習で音声を認識していたが、会話に対しては内蔵プログラムのルールで応答していた。この実装は、言語の構文解析に機械学習の手法が適用されるにつれ、どんどん変化している(「人工知能と言語」参照)。
ヤング教授は、強化学習(ディープマインドが世界最高レベルの囲碁棋士を破ったプログラム「AlphaGo」の開発に使った技術)は、音声アシスタントの技術水準を大きく向上させるのに特に役立つだろう、という。AlphaGoは自身と何千回も囲碁で対戦して学習し、勝利するたびに正の強化によって囲碁の能力を上達させた。一方で、会話プログラムは応答をいろいろ変えることで、ユーザーから正(負)のフィードバックを得られる。
ヤング教授は講演後にMIT Technology Reviewの質問に答え、「強化学習は必ず重要になるでしょう。活用できる資源で最も強力なのは、音声アシスタントのユーザーです」と述べた。
ヤング教授によると、強化学習がフィードバックを効果的に得るために、音声アシスタントの振る舞いを大きく変える必要はない、という。音声アシスタントはおそらく、少しずつ違った応答を返すことになる。「応答はとても練られた方法で変化するはずです。馬鹿げたことをしてユーザーの反応を見る必要はありません」
ヤング教授は講演で、言語の構文解析が機械にとって難しい理由を説明した。たとえば、画像認識とは異なり、言語は構成可能であり、同じ構成要素でも配置が変わればまったく別の意味になることがある。言語に関するもうひとつの大きな課題は、言語が、ある人の考えについて、不完全な一部分しか伝えないからだ。多くの場合は、言い回しや文章の意味を推測する必要があり、実際の場面では、話し言葉で長い文で質問すると、質問を解釈するために、いろいろな領域の知識を組み合わせなければいけなくなる。たとえば、レストランに関する複雑な質問に答えるには、時間や場所、食品についての理解が欠かせない。
とはいえ、会話アシスタントが大きく向上するのに今はいい時期だ、とヤング教授は考えている。「商業的な需要があり、テクノロジーもあります。今後5年間で本当に大きな進歩を目にするでしょう」とヤング教授は述べた。
ヤング教授がアップルに加わったのは、ヤング教授のスタートアップ企業「ボーカルQ」をアップルが2015年に買収した後のことだ。アップルは機械学習と人工知能の進歩に基づいたテクノロジーの活用競争で他社に遅れをとっていると非難されている。しかし、ヤング教授の研究を考えると、この非難は事実とは異なるかもしれない。また、アップルは最高の人材を呼び込むために自社のAI研究を活発にしようとしている。最近、アップルは人工知能研究の初代所長にカーネギーメロン大学のルスラン・サラクトゥディノフ教授を招いた。また、アップルの研究者は論文の提示や発表を始めている(「事例:アップル 人工知能で出遅れた企業の挽回策」参照)。
もちろん、会話テクノロジーに関心があるのはアップルだけではない。アマゾンのアレクサ(完全に音声だけで操作する家庭向け機器)のヒットにより、他の企業はこぞって類似の家庭向けヘルパーを開発している。グーグルが提供するグーグル・ホームは、非常に高度な言語解析テクノロジーを使っている(「Siriとアレクサを倒す グーグルの強みは検索」参照)。
IBMの研究者も同様に、ミシガン大学のチームと協力して強化学習による会話システムを実験中だ。IBMのプロジェクトに関わっているミシガン大学のテインダー・バイージャ教授によると、強化学習による対話システムの訓練は強力な新方法だという。しかしバイージャ教授は、自分が生きている間にSiriが本当に人間らしいコミュニケーション能力を身につけるとは考えていない。
「会話システムはより豊かな文脈を使い始めるでしょうが、会話システムが対象とする分野は、レストランの予約や、旅行、技術サポート等に留まるはずです」