人工知能(AI)の世界では規模が重要なことは間違いない。オープンAI(OpenAI)が2020年に「GPT-3」を発表したとき、GPT-3は過去最大の大規模言語モデルだった。同社は大規模言語モデルを超大型化するだけで性能が飛躍的に向上することを示した。それがこのテクノロジーブームのきっかけとなり、以来、このブームはより大型化されたモデルによって継続されてきた。オープンAIの研究科学者であるノーム・ブラウンは、10月にサンフランシスコで開催されたカンファレンス「TED AI」で聴衆に次のように語った。「過去5年間のAIの驚異的な進歩は、『規模』という一語に集約できます」。
しかし、新たなハイエンドモデルから得られる成果が小さくなるにつれ、研究者はより少ないリソースでより多くをこなす方法を模索している。特定のタスクでは、より焦点を絞ったデータセットで訓練されたより小さなモデルが、より大きなモデルと同等、あるいはそれ以上のパフォーマンスを発揮できるようになった。これは、いくつかの具体的な方法でAIを導入したいと考えている企業にとっては好都合だ。同じようなリクエストを何度も繰り返すだけなら、インターネット全体を使ってモデルを訓練する必要はない。
多くの巨大テック企業は現在、この目的のために主力モデルの小型版を提供している。オープンAIは「GPT-4o」と「GPT-4o mini」を、グーグル・ディープマインド(Google DeepMind)は「ジェミニ・ウルトラ(Gemini Ultra)」と「ジェミニ・ナノ(Gemini Nano)」を提供している。アンソロピック(Anthropic)の「クロード(Claude)3」は、大型の「オーパス(Opus)」、中型の「ソネット(Sonnet)」、小型の「ハイク(Haiku)」の3種類を揃えている。マイクロソフトは小規模言語モデルの草分けと言える「ファイ(Phi)」シリーズを提供している。
小規模言語モデルを提供する小規模な企業も増えている。AIスタートアップ企業のライター(Writer)は、同社の最新言語モデルがいくつかのケースで、パラメーター(訓練中に計算され、モデルの振る舞いを決定する値)が20分の1しかないにもかかわらず、多くの主要指標で最大規模の最上位モデルの性能に匹敵すると主張している。
規模の小さなモデルは効率性が高いので、訓練や実行の時間が短くて済む。これは、より手頃な導入を求める人にとっては朗報だ。気候変動対策にも有効かもしれない。小規模言語モデルは、大規模言語モデルの数分の一のコンピューターパワーで動作するため、エネルギー消費量が少なくて済む。
小規模言語モデルは持ち運びにも便利だ。クラウドにリクエストを送信する必要はなく、ポケットの中で機能する。次のブームは「小規模」だ。