グーグルの上級エンジニアであるルーク・ソーナウが書いたとされる内部文書の中で、ここ最近シリコンバレーで大勢がささやいてきたであろうことが明言されていた。誰もが無償で使えるオープンソースが、巨大テック企業による人工知能(AI)の支配を脅かしている。
新たなオープンソースの大規模言語モデルが、ピニャータ(編注:中南米の国の子供のお祭りで使う、紙製のくす玉。お菓子やおもちゃなどが詰まっている)から落ちてきたお菓子のように投下されている。グーグルのバード(Bard)やオープンAI(OpenAI)のチャットGPT(ChatGPT)に代わるもので、研究者やアプリ開発者が研究や構築に使ったり、改変したりすることができるモデルだ。大手企業が作成した最高のAIモデルにほぼ匹敵する性能を誇り、小型で安価なバージョンだ。しかも無料で配布されている。
グーグルは今週5月10日に開催された年次開発者会議「グーグルI/O(Google I/O)」で、Gmail、フォト、マップに至るまで、あらゆるサービスに生成AIを投入することを明らかにした。だが、こうした企業は競合企業との競争に忙しく、背後から本当の競争が迫って来ていることに気がつかなかったのだ、とソーナウは述べている。「内輪で小競り合いをしている間に、第三の勢力は静かに我々の利益を奪っていたのだ」。
それは多くの意味で良いことである。大規模言語モデルを利用しやすくなれば、イノベーションの推進につながり、さらに欠陥の発見にも役立つかもしれない。ごく少数の大金持ちの企業だけでこのテクノロジーを管理し、使い方を決めているようでは、AIは発展しないだろう。
だが、このオープンソースのブームは心許ないものだ。オープンソースの大規模言語モデルのほとんどはまだ、豊富な資金を持つ大手企業が発表した巨大モデルを基に構築している状態だ。仮にオープンAIやメタが店じまいをしてしまえば、新興都市が僻地になるかのようにそのブームもしぼみかねない。
たとえば、これらのモデルの多くは、メタAIが公開したオープンソースの大規模言語モデル「LLaMA(Large Language Model Meta AI)」を基に構築したものだ。非営利団体エルーサーAI(EleutherAI)が作ったパイル(Pile)と呼ばれるオープンソースの大規模な公開データ・セットを使用しているものもある。しかし、エルーサーAIが存在するのは、オープンAIが公開した情報に基づき、大勢のプログラマーがGPT-3の開発方法をリバース・エンジニアリングし、業務外の時間に自作を試みることができたからにほかならない。
「メタAIは、モデルを訓練し、研究コミュニティに公開するというすばらしい仕事をしてくれました」。エルーサーAIで代表と研究責任者を兼任し、コンサルティング会社ブーズ・アレン・ハミルトンにも勤務するステラ・ビダーマンは言う。ソーナウも、グーグルの内部文書でメタAIが果たした重要な役割を強調している(グーグルはMITテクノロジーレビューの取材に対し、同社の従業員がこの文書を書いたと認めつつも、公式の戦略文書ではないことを指摘した)。
その何もかもが変わる可能性がある。オープンAIは競争を恐れ、すでに以前のように積極的に情報を公開する姿勢を捨て去っている。そしてメタは、新興企業が同社のオープンソースのコードで不愉快なことを始めるリスクを抑えたいと考えるようになるかもしれない。メタのAI研究担当副社長であるジョエル・ピノーは、外部へのコードの公開について「今はやるべきだと本気で思っています」と、意見を述べた。「これからの5年間、同じ戦略をとるのか。それはわかりません。AIの動きはあまりにも速いからです」。
公開を止める傾向が続けば、オープンソース勢が漂流するだけでなく、次世代のAIのブレークスルーは、資金力がある最大手のAI研究所の手に一気に戻ってしまうだろう。
AIの作り方、使われ方の未来は、岐路を迎えている。
オープンソースの大鉱脈
オープンソースのソフトウェアは、何十年も前から存在する。インターネットはその上に成り立っている。だが、強力なAIモデルの構築にはコストがかかるため、オープンソースのAIは1年ほど前までは広まっていなかった。それが瞬く間に大鉱脈になった。
3月の数週間だけを見てもわかる。3月25日、AIを自由にかつオープンに利用することを支持するスタートアップ企業、ハギング・フェイス(Hugging Face)は、オープンAIが2022年11月に公開してブームになったチャットボットであるチャットGPTに対抗する初のオープンソースのチャットボットを発表した。
ハギング・フェイスのチャットボットである「ハギングチャット(HuggingChat)」は、会話用に調整したオープンソースの大規模言語モデルであるオープン・アシスタント(Open Assistant)を基に構築したものだ。このモデルはおよそ1万3000人のボランティアの協力を得て訓練したものであり、2023年2月にリリースされた。だが、オープン・アシスタントそのものはメタのLLaMAの上に構築されている。
そして、テキストから画像を生成するモデル、ステーブル・ディフュージョン(Stable Diffusion)をヒットさせたスタビリティAI(Stability AI)は、3月19日にオープンソースの大規模言語モデル「ステーブルLM(StableLM)」を公開している。1週間後の3月28日、スタビリティAI は、オープン・アシスタントやハギングチャットと同様に、ステーブルLMを会話用に最適化した「ステーブルビクーニャ(StableVicuna)」を発表した(ステーブルLMはGPT-4、ステーブルビクーニャはチャットGPTに対するスタビリティAIの回答と考えると良い)。
このような新しいオープンソース・モデルは、スタンフォード大学の「アルパカ(Alpaca)」、データブリックス(Databricks)の「ドリー(Dolly)」、セレブラス(Cerebras)の「セレブラスGPT(Cerebras-GPT)」など、ここ数カ月で続々とリリースされたほかのモデルに連なるものだ。上記のモデルの大半は、LLaMAまたはエルーサーAIのデータ・セットとモデルの上に構築されている。セレブラスGPTは、ディープマインド(DeepMind)が設定したテンプレートに倣っている。さらに多くのモデルが登場するのは間違いないだろう。
オープンソースは主義の問題だという人がいる。AI研究者でユーチューバーのヤニック・キルチャーは、オープン・アシスタントを紹介する映像の中で「これは、一握りの大企業の手から会話型AIのパワーを奪い取り(中略)、すべての人に届けようとする全世界のコミュニティの取り組みです」と語っている。
ハギング・フェイスの共同創設者であり最高技術責任者(CTO)を務めるジュリアン・ショーモンは今年4月、「私たちはオープンソースAIを求め、決して諦めずに戦い続けます」とツイートした。
一方で、利益の問題だという人もいる。スタビリティAIは、画像で成功させたのと同じパターンをチャットボットでも再現したいと望んでいる。サービスを使う開発者たちのイノベーションを煽り、その恩恵を受けようという考えだ。同社は、そのイノベーションを最大限に活かし、さまざまな顧客に向けたカスタムメイドの製品に取り込もうとしている。「私たちはまずイノベーションを刺激し、それから取捨選択していきます」。スタビリティAIの最高経営責任者(CEO)であ …