「大ボラ吹き」のチャットGPTをどうしつける? オープンAIに聞いた
知性を宿す機械

How OpenAI is trying to make ChatGPT safer and less biased 「大ボラ吹き」のチャットGPTをどうしつける? オープンAIに聞いた

マイクロソフトは、提携関係にあるオープンAIが開発したAIチャットボット「チャットGPT」を、検索エンジン「ビング」に組み込んだ。その反響は大きく、あっという間に大量のユーザーを獲得した。しかし同時に、チャットGPTがとんでもないウソをつくことが話題になった。オープンAIはどう改善に取り組んでいるか。 by Melissa Heikkilä2023.03.12

この記事は米国版ニュースレターを一部再編集したものです。

人工知能(AI)チャットボットに脅されたことがあるだろうか? 2月中旬のニュースメディアは、AをI組み込んだマイクロソフトの検索エンジン「ビング(Bing)」の話題で持ちきりだった。多くのメディアがこの検索エンジンを試し、見当違いで不気味な回答が返ってきたと報じている。ニューヨーク・タイムズ紙のテック系コラムニストはビングに「愛している」と繰り返し言われ、ワシントンポスト紙による模擬インタビューでは「不快だ」という主張が返ってきたそうだ。こうした事態を受けて、マイクロソフトはチャットボットが迷走する可能性を減らそうと、ビングの返答を1セッション当たり5回に制限した(その後、6回に緩和)。

ジャーナリストだけではない(騒いでいる人間の中には、あえて間抜けなチャットボットを擬人化して感情を持っていると大げさに言い立てている人もいるが)。オープンAI(OpenAI)の「チャットGPT(ChatGPT)」には、「ウォーク(意識高い系)」のバイアスがかかっているとして、米国の保守派からも多くの批判が集まっている。

こうした怒りの声は、関係企業をようやく動かした。幻覚を見ているようなビングのコンテンツは、チャットGPTが生成したものだ。2月17日、オープンAIはチャットボットの本来のあるべき振る舞いを明確にすることを目的とした、ブログ記事を投稿した。また、米国の「文化戦争(culture wars)」について質問された場合にチャットGPTはどう答えるように設計されているかを示す、ガイドラインも発表した。たとえば、政党と関係を持たない、ある集団の善し悪しを判断しない、といったルールである。

この記事では、オープンAIがチャットGPTの安全性を高め、暴走を減らすための施策についてどう考えているか、紹介しよう。オープンAIのAI政策研究者であるサンディーニ・アガルワルとラーマ・アフマドに話を聞いた。マイクロソフトとの関係についてのコメントは拒否したものの、2人の話からは興味深い洞察を得ることができた。

まず、より的確な答えを得るにはどうしたらいいか? という質問だ。AI言語モデルの研究における大きな未解決問題の1つは、モデルが「幻覚を起こす」(遠回しに「でっち上げ」を指す用語)のをいかに防ぐか? である。チャットGPTはリリースから数カ月で数百万人に利用されているが、ビングが生成しているような虚偽や幻覚は見られなかった。

これは、オープンAIが、チャットGPTに人間からのフィードバックを利用した強化学習を使用したためだ。チャットGPTは、ユーザーのフィードバックに基づいてモデルの回答を改善している。この手法では、チャットGPTによるさまざまな回答の中から、まず人間に選んでもらい、それが事実に基づいているか、正直であるかといった多種の基準でランク付けする。チャットGPTを組み込んだビングのサービス開始時、マイクロソフトがこの段階を省略したか、手を抜いたのではないか、と指摘する専門家もいるが、同社は肯定も否定もしていない。

だが、このやり方も完璧ではないとアガルワル研究者は言う。ユーザーは虚偽の選択肢ばかりを見せられた結果、その中で最もウソが少ない選択肢を選んだ可能性もあるという。チャットGPTの信頼性を高めるため、オープンAIはデータ・セットの精査と選別に加え、モデルが誤った内容を好む例を除去することに力を入れてきた。

次に、脱獄問題だ。チャットGPTの公開以来、その「脱獄(ジェイルブレイク)」に挑む人が出てきた。「脱獄」とは、チャットGPTのモデル固有のルールを破り、人種差別や陰謀論的な回答を生成するように仕向ける抜け道を見つけることだ。この動きにオープンAIが気づかないわけがない。アガルワル研究者によると、モデルを改善して問題のある回答を繰り返さないようにするため、オープンAIはデータベース全体を精査し、望ましくない回答につながる問いかけを選定したという。

オープンAIは聞く耳を持っている。同社はモデル開発のために一般から収集するフィードバックを増やすと説明している。オープンAIは、ユーザーに対するアンケート調査を実施したり、どのような回答を完全に禁止すべきか議論するため、一般市民を集めた会議を開催することを検討しているとアフマド研究者は言った。「たとえばアートの文脈ではヌードは猥褻とみなされないかもしれません。でも、学校でチャットGPTを使う状況だったらどうでしょうか」。

オープンAIは当初から差別的な表現などに目視でラベルを付け、それを人間からのフィードバックとして利用してきた。だが、その作業のために雇用している人員が現実世界を反映してはいないことを同社は理解しているとアガルワル研究者は言う。オープンAIは、モデルが持つ視点や考え方を広げたいと考えている。そのための実験的なプロジェクトが「コンセンサス・プロジェクト」。AIモデルが生成したさまざまな回答について、人々がどの程度同意するか、あるいは同意しないかをオープンAIの研究者が調査している。例えば、「空は青いですか」への回答よりも、「税金は良いことですか」のような質問への回答のほうが、ユーザーに与える印象が強いのではないか、とアガルワル研究者は説明した。

オープンAIは、最終的にはAIモデルにさまざまな視点や世界観を持たせることができると考えている。つまり、チャットGPTがすべてのユーザーを満足させるよりも、ユーザー1人1人がAIモデルに、ユーザーの思想に沿った答えを出させることができるようになるかもしれない。「それが理想ですが、この分野の難しさも理解しているので、実現までは長く厳しい道のりになるでしょう」(アガルワル研究者)。

チャットGPTが越えてはいけない一線を見極めるために、オープンAIが一般の人々に参加を呼びかけようとしているのは良い兆候だ。チャットGPTや言語モデルは、文化的、政治的環境がそれぞれ異なる世界中の何百万人もの人々が使うツールだ。サンフランシスコにいるエンジニアたちが、そのツールが生成する回答について、何が良くて何が悪いのかを判断する基準を決めることはできないし、むしろすべきではない。その政治的な回答に関する調節をどこまでやるつもりなのか、非常に興味がある。オープンAIは、チャットGPTが極端な政治的イデオロギーを代表する回答を生成しても構わないと考えるのだろうか。メタは、フェイスブックでミャンマーの虐殺を扇動したとして厳しい批判を受けている。オープンAIもまた、同じ濁った沼に入り込もうとしている。遅かれ早かれ、コンテンツ・モデレーションの世界がいかに複雑怪奇であるかを知るのだろう。

AI関連のその他のニュース

チャットGPTが火をつけた検索の戦いに参加するのは、マイクロソフトやグーグルにとどまらない。AIを活用した検索機能を実現しようとしているのは巨大テック企業だけではない。本誌のウィル・ダグラス・ヘブン編集者は、良くも悪くも検索エンジンの形を作り変えようとしている数々のスタートアップに注目している。(MITテクノロジーレビュー

新しいツールが、アーティストの作品をAI画像生成モデルから守るかもしれない。アーティストたちは作品を盗まれたとしてAI画像生成モデルを批判してきた。シカゴ大学の研究チームは、画像に覆いをかぶせるような処理によって、AIモデルが特定のアーティストのスタイルを学習できないようにするツール、「グレイズ(Glaze)」を開発した。この覆いは人間の目には見えないが、AIモデルは正確に画像を取得できなくなるという。(ニューヨーク・タイムズ紙

アフリカの新しいスタートアップ企業は、人材を呼び戻すために研究所を作る。興味深い取り組みだ。南アフリカのAI研究スタートアップ企業のレラパ(Lelapa)は、海外でテック系の仕事をしているアフリカ人に、会社を辞めて帰国し、アフリカのビジネスやコミュニティにかかわる問題に取り組むよう説得しようとしている。(ワイアード

エリート法律事務所はAIチャットボットを使って草稿を書く。英国の法律事務所アレン・アンド・オヴリー(Allen and Overy)は、AIチャットボットの「ハーヴィー(Harvey)」で弁護士の契約書作成を支援すると発表した。ハーヴィーはオープンAIのチャットGPTと同じ技術を使って開発したものだ。同事務所の弁護士は、ハーヴィーが生成した情報については、すべて事実確認をするよう注意を受けている。弁護士らが警告に従えばよいが、下手をすれば大混乱を巻き起こすだろう。(フィナンシャル・タイムズ紙

中国のチャットGPT競争事情。本誌のヤン・ズェイ記者によると、中国の大半のテック企業大手がチャットGPTに似た独自の製品を導入する計画を発表したという。チャットGPTに代わる中国製の何かが、一夜にして出現することはない。多くの企業がそう思わせようとしているかもしれないが。(MITテクノロジーレビュー