グーグルは12月6日、次世代人工知能(AI)モデル「ジェミナイ(Gemini)」の第1弾を発表した。ジェミナイは、最高経営責任者(CEO)のサンダー・ピチャイが監督・推進してきた、グーグル社内の長年の取り組みが結実したものだ(ジェミナイの詳細については、本誌の既報をご覧いただきたい)。
ピチャイは、かつてクロム(Chrome)や アンドロイド(Android)の開発を指揮していた人物で、製品へのこだわりが強いことで有名だ。2016年にCEOとして初めて出した創業者の手紙で、ピチャイは「モバイルファーストからAIファーストの世界へ移行するだろう」と予言している。以降、Android端末からクラウドに至るまで、グーグルのありとあらゆる製品にAIを深く根付かせてきた。
にもかかわらず、昨年は、グーグルではなくオープンAI(OpenAI)が発表したAIによって大きく定義づけられた年となった。オープンAIによる昨年の「DALL-E(ダリー)」と「GPT-3.5」、そして今年の「GPT-4」のリリースが業界を席巻し、スタートアップ企業とテック大手を交えた軍拡競争が幕を開けた。
ジェミナイは今、こうした軍拡競争の最新の取り組みだ。この最先端のシステムは、デミス・ハサビス率いるグーグル・ディープマインド(Google DeepMind)が中心となって開発したものだ。この組織は、グーグルのAIチームを一本化し、新たに統合した組織である。ジェミナイは12月6日から、同社の対話型生成AI(ジェネレーティブAI)「バード(Bard)」で体験することができ、2024年中には同社の全製品に導入される予定だ。
ジェミナイの発表前夜、MITテクノロジーレビューはカリフォルニア州マウンテンビューにあるグーグルのオフィスでピチャイCEOにインタビューし、ジェミナイがグーグル、同社製品、AI、そして社会全体にどのような意味を持つのか議論した。
以下は、ピチャイCEOの発言をまとめたものである。なお、会話内容は明確さと読みやすさを考慮し、編集を加えている。
◆
——ジェミナイの魅力とは何でしょうか?AI全般についてやジェミナイの持つ力、有用性、全製品への導入予定など、あなたが考える全体像をお聞かせください。
ジェミナイを特に魅力的な存在にしているのは、ゼロからネイティブなマルチモーダル・モデルを構築した点です。人間の学習と同様に、文章からのみ学習しているのではありません。文章、音声、コードから学習しています。そのため、モデルは本質的により優れた能力を備えており、私たちが新たな可能性を少しずつ見いだし、この分野の進歩に貢献するのに役立つでしょう。そこに魅力を感じています。
ジェミナイ・ウルトラ(Gemini Ultra、来年リリース予定のジェミナイの最上位バージョン)は主要ベンチマーク32種類のうち30種類でトップレベルを誇り、特にマルチモーダル・ベンチマークでは群を抜いている点も魅力的です。このMMMU(大規模マルチタスク言語理解)のベンチマークは、こうした部分の進歩を表しています。個人的には、主要ベンチマークのひとつに挙げられてきたMMMUが90%のしきい値を超えたことも大きな進展であり、興奮を覚えます。2年前の時点では最先端のものでも30%、40%程度でした。この分野がどれだけ進歩しているかが分かりますよね。これら57項目で約89%もあれば人間の専門家レベルと同等です。ジェミナイは、このしきい値を超えた最初のモデルなのです。
ついにジェミナイが当社の製品に搭載されることについても、興奮を覚えています。開発者向けに公開する予定でいます。ジェミナイはプラットフォーム型です。AIは、プラットフォームへの大きな転換期を迎えており、その勢いはWebやモバイルを凌いでいます。ですから、その瞬間から我々にとっても大きな一歩を踏み出したことになります。
——まずは、こうしたベンチマークから話を進めましょう。ジェミナイは、ほとんどすべての基準で、あるいは大部分の基準で、GPT-4を上回っているように見えます。しかし、その差はそれほど大きくはありません。一方、GPT-4の出現はかなり大きな前進に感じました。このような大規模言語モデルのテクノロジーで実現できることは、そろそろ頭打ちになりつつあるのでしょうか? それとも、今後もこうした大きな成長曲線を描き続けるのでしょうか?
まず、この先については、多くの余地が残されていると考えています。いくつかのベンチマークはすでに高い水準に達しています。何かを85%から向上させようとする場合、こうした曲線の限界に差し掛かっていることはご理解いただけると思います。そのため、大した差ではないように見えるかもしれませんが、進歩はしているのです。もっと新しいベンチマークも必要になるでしょう。当社がMMMUマルチモーダル・ベンチマークに着目した理由のひとつはそれです。こうした新しいベンチマークのいくつかは、最先端のシステムでもまだはるかに低いレベルにいます。今後、多くの進歩が見込まれています。スケーリング則はまだ適用できるはずです。モデルを大きくすればするほど、さらなる進歩が見込めるでしょう。総合的に見ると、まさにまだ始まったばかりだと感じています。
——あなたがジェミナイにおける重要なブレークスルーだと考えるものと、それがどのように応用されていくかについてお聞かせください。
将来起こるであろう飛躍的な進歩について、人々が想像するのはとても難しいことです。当社ではAPIを提供していますが、皆さん、かなり深い方法でいろいろと考えるでしょう。
マルチモダリティは大きく成長すると思います。こうしたモデルにもっと多くの論理を学習させていけば、より大きなブレークスルーが次々と生まれることでしょう。さらにディープなブレークスルーはこれからです。
この質問への答えのひとつとして、ジェミナイ・プロ(Gemini Pro)が挙げられます。ベンチマークでは非常に良い成績を収めています。バードに搭載してみると、ユーザーとしてそれを実感することができました。当社でテストしたところ、すべてのカテゴリーで大幅に評価が上がりました。こうした理由から、私たちはジェミナイ・プロを過去最大級のアップグレードと呼んでいるのです。並べてブラインド評価をすると、その性能の違いがよくわかります。つまり、より優れたモデルをベンチマークで向上させるのです。それによって進歩がもたらされます。私たちは今後もモデルの訓練を続け、そこからさらに向上させていくつもりです。
製品に搭載するのが待ちきれません。これらのモデルはとても有能です。こうしたモデルの性能を最大限に発揮できるような製品体験を実際にデザインしていくことは、今後数カ月間をかけた、とてもエキサイティングな挑戦になるでしょう。
——ジェミナイのリリースには相当なプレッシャーがあったことと思います。GPT-4のリリースで起こった出来事を通して、あなたが何を学んだのか気になります。どんなことを学びましたか? その時期に何かアプローチが変わったのでしょうか?
ひとつ言えるのは、少なくとも私にとっては、これはゼロサムゲームとはかけ離れたものだということです。AIへのシフトがどれほど大規模なものなのか、そして私たちがいかに初期段階にいるのかを考えてみてください。この先には大きなチャンスが待っているのです。
しかし、あなたの具体的な質問に答えるなら、この業界は実に豊かで、全員が進歩し続けています。科学的な要素もあり、学術的な要素もあります。数々の論文が発表され、GPT-4のようなモデルが実世界でどのように機能するかも …