サンフランシスコに拠点を置くオープンAI(OpenAI)が12月に公開したチャットボット「チャットGPT(ChatGPT)」は、ほぼ一夜にして爆発的に話題を呼び主役となった。チャットGPTは、サービス開始からわずか2カ月後の2023年1月に、ユーザー数が1億人に到達した。史上最も急速に成長しているインターネット・サービスだという推定もある。マイクロソフトはオープンAIに100億ドルを投資し、マイクロソフト・オフィスと検索エンジンの「ビング(Bing)」にこの技術を組み込んでいる。検索を巡る戦いで再び表舞台に出てきたかつてのライバルに刺激され、グーグルは独自のAI言語モデル「ラムダ(LaMDA)」を活用したチャットボット「バード(Bard)」のリリースを急ぐ。私の家族のワッツアップ(WhatsApp)でさえ、チャットGPTに関する話で埋め尽くされているほどの盛り上がりだ。
だが、オープンAIの衝撃的なヒット作は、どこからともなく現れたものではない。このチャットボットは、数年前から登場し始めた大規模言語モデルの中で、最も洗練されたバージョンと言えるものだ。その大まかな経緯は次のとおりだ。
1980年代~90年代:回帰型ニューラル・ネットワーク
チャットGPTは、同じくオープンAIが開発した大規模言語モデル「GPT-3」の1バージョンである。言語モデルとは、膨大なテキストで訓練されたニューラル・ネットワークの一種だ(ニューラル・ネットワークは、動物の脳内で神経細胞が互いに信号を送り合う仕組みにヒントを得たソフトウェアである)。テキストはさまざまな長さの文字や単語の並びで構成されている。言語モデルには、そのようなデータを理解できるニューラル・ネットワークが必要になる。1980年代に考案された回帰型ニューラル・ネットワークは、連続した単語の並びを処理できる。だが訓練に時間がかかり、並びの中の前の単語を忘れてしまうことがある。
1997年、コンピューター科学者のゼップ・ホッフライターとユルゲン・シュミットフーバーが、LSTM(Long Short – Term Memory:長・短期記憶)ネットワークを発明してこの問題を解決した。これは、入力データのうち、過去のデータをより長く保持できる特殊なコンポーネントを備えた、回帰型ニューラル・ネットワークである。LSTMは数百語の文字列を扱うことができたが、その言語能力には限界があった。
2017年:トランスフォーマー
現在の大規模言語モデルを実現可能にしたブレークスルーは、グーグルの研究チームによって起こった。グーグルは、単語やフレーズがテキストの並びの中のどこに現れるかを追跡できるニューラル・ネットワークの一種「トランスフォーマー(Transformers)」を発明した。単語の意味は、前後に来る他の単語の意味に依存することが多い。このコンテキスト情報を追跡することで、トランスフォーマーはより長い文字列を処理し、単語の意味をより正確に捉えることができる。たとえば、「ホット・ドッグ(暑がっている犬)にはたくさんの水を与えなければならない」と「ホット・ドッグ(食べ物)はマスタードを付けて食べるべきだ」という2つの文章では、「ホット・ドッグ」の意味が全く違ったものになる。
2018〜2019年:GPTとGPT-2
オープンAIが最初に開発した2つの大規模言語モデルは、わずか数カ月違いで誕生した。同社は、複数のスキルを持つ汎用目的型AI(general-purpose AI)の開発を目指しており、大規模言語モデルはその目標に向けた重要なステップであると考えている。GPT(Generative Pre-Trained Transformerの略)は、当時の自然言語処理の最先端ベンチマークを打ち破り、大きな成果を上げた。
GPTは、教師なし学習とトランスフォーマーを組み合わせたものだ。教師なし学習とは、事前に注釈が付けられてないデータ(この場合は大量のテキスト)で、機械学習モデルを訓練する方法である。これにより、ソフトウェアはデータのパターンを自ら見つけ出し、把握する。何を見ているのかを人間が教える必要はなくなるのだ。機械学習におけるこれまでの成功の多くは、教師あり学習と注釈付きデータに依存していた。だが、手作業によるラベル付けには時間がかかるため、訓練に利用できるデータ・セットの大きさには限りがある。
次いで登場したGPT-2は大きな話題を呼んだ。オープンAIは、GPT-2が「欺瞞的で、バイアスがあり、または暴力的な言葉を生み出すために」使われることを大いに懸念し、完全なモデルを公開しないと決めた。時代は変わるものだ。
2020年:GPT-3
GPT-2も見事だったが、オープンAIがその次に投入したGPT-3には驚愕させられた。人間が書いたようなテキストを生成できるようになったのは、大きな前進だった。GPT-3は、質問に答えたり、文書を要約したり、さまざまなスタイルで物語を作り出したり、英語、フランス語、スペイン語、日本語などを翻訳したりができる。まるで人間のようで不気味なほどだ。
GPT-3の成果が、新しい技術を発明するのではなく、既存の技術を超大型化することで得られたものであることに最も注目すべきだろう。GPT-2のパラメーター(訓練中に調整対象となるネットワークの値)が15億であるのに対して、GPT-3のパラメーターは1750億である。また、GPT-3はより多くのデータで訓練されている。
だが、インターネットで集めた文書で学習させると、新たな問題を引き起こす。GPT-3は、インターネットで見つけた多くの偽情報や偏見を吸収し、オンデマンドでそれを再現した。オープンAIが認めているように、「インターネットで訓練されたモデルにはインターネット規模のバイアスがある」。
2020年12月:有害なテキストとその他の問題
オープンAIがGPT-3のバイアスと格闘している間、業界他社は、AIの有害な傾向を抑制するのに失敗したことで注目を浴びていた。大規模な言語モデルが、誤った、あるいは憎悪に満ちたテキストを吐き出すことがあるのは周知の事実である。ところが、ほとんどの巨大テック企業がこの問題の解決に取り組んでいないことが明らかになった。グーグルのAI倫理チームで共同リーダーを務めたティムニット・ゲブルが、大規模言語モデルが抱える潜在的な害(高いコンピューティング・コストを含む)を強調した論文を共同で発表したとき、上司は快く思わなかった。2020年12月、ゲブルは職を追われることになった。
2022年1月:インストラクトGPT
オープンAIは、GPT-3が生成する誤情報や攻撃的な文章を減らすために、強化学習を使ってさまざまな人間の好みに合わせてモデルを訓練しようとした(AIを人間の意図や指示に合わせる技術は「アラインメント」と呼ばれる)。その結果として誕生したインストラクトGPT(InstructGPT)は、人間の指示に従うことに優れており、不快な言語や誤情報が少なく、全体的にミスが少ないものになった。つまりインストラクトGPTは、「愚か者」ではなくなったのだ(それを要求されない限りは)。
2022年5月~7月:OPT、BLOOM
大規模言語モデルに対しての一般的な批判は、訓練コストがかかるため、資金的にかなりのゆとりがある研究機関でなければ構築が難しいというものだ。そのため、強力なAIは、企業の小規模なチームが密室で、しかるべき監視を受けることもなく、研究コミュニティからの意見を広く取り入れることもなく構築されているのではないか、との懸念を引き起こしている。これに対して、少数の共同プロジェクトが大規模言語モデルを開発し、技術の研究や改善を希望する研究者に無料で公開している。メタは、GPT-3を再構築してOPT(Open Pretrained Transformer)を作り、無償で提供した。ハギング・フェイスは、およそ1000人のボランティア研究者からなるコンソーシアムを率いてブルーム(BLOOM)を構築し、リリースしている。
2022年12月:チャットGPT
当のオープンAIでさえ、チャットGPTに対する反響の大きさには目を見張っている。チャットGPTのサービスが公開されるちょうど前日、私はオープンAIによる最初のデモを見た。その中でチャットGPTは、インストラクトGPTの増分更新として紹介されていた。インストラクトGPTと同様に、チャットGPTはなめらかで正確、かつ攻撃的に話すことがないと評価された人間のテスターからのフィードバックを基に、強化学習で訓練されている。事実上、オープンAIは会話ゲームの習得を目指してGPT-3を訓練し、誰もが試せるように招待したのである。以来、何百万人もの人々がチャットGPTを試している。