アルファベット(グーグル)傘下の人工知能(AI)研究所、ディープマインド(DeepMind)の新しい論文によると、AIを搭載した優れたチャットボットを生み出す秘訣は、人間に振る舞い方を教えてもらい、さらにインターネットを利用して自身の回答を裏付けるように強制することだという。
9月22日の新しい査読前論文で、研究チームはディープマインドの大規模言語モデル「チンチラ(Chinchilla)」で訓練したAIチャットボット「スパロー(Sparrow)」を発表した。
スパローは人間と会話しながらその場でグーグル検索を実行したり、情報を使ったりして回答するように設計されている。その回答が人間にどれだけ有用だったかということに基づいて、特定の目的を達成するために試行錯誤して学習する強化学習アルゴリズムで訓練される。このシステムは、自傷他害を促すなどの危険な結果をもたらすことなく、人間と会話できるAI開発の一助となることを目指すものだ。
大規模言語モデルは、人間が書いたかのような文章を生成する。文章の要約や、より強力なネット検索ツールの構築、カスタマー・サービス用チャットボットで使われる大規模言語モデルが、インターネット・インフラにおいて果たす役割はますます重要になっている。
だが、大規模言語モデルはインターネットから大量のデータやテキストをかき集めて訓練されるため、不可避的に多くの有害なバイアスを反映してしまう。有害コンテンツや差別的コンテンツを吐き出す前に、とがめられることはほとんどない。そのため、人間と会話するように構築されたAIでは、悲惨な結果を招きかねない。安全対策を適切に施していない会話型AIは、例えば少数民族にとって攻撃的な言葉を使ったり、自殺の方法を提供したりする恐れがある。
…