2021年は、超大型人工知能(AI)モデルの年だった。
オープンAI(OpenAI)が2020年6月にリリースしたGPT-3は、驚異的な言語把握力を持っていた。説得力のある文章を生成し、人間と会話し、自動補完コードを生成することさえ可能だった。GPT-3の驚異性はその規模にも見られ、これまでに作られたどのニューラル・ネットワークよりも巨大だった。GPT-3は「大きいことは良いことだ」というAIの新トレンドの火つけ役ともなった。
GPT-3には、訓練に使われたオンライン・テキストに内在するバイアスや悪意を模倣する傾向があり、その規模の大きさ故に訓練には持続不可能なほど膨大な計算機能力が必要だ。にもかかわらず、MITテクノロジーレビューはGPT-3を2020年のブレイクスルー・テクノロジーの1つに選んだ。良くも、悪くもだ。
しかし、GPT-3のインパクトは2021年になって、さらに明確になった。2021年は、数々のテクノロジー企業やトップクラスのAI研究機関によって構築された大規模AIモデルが急増し、その多くがGPT-3の規模と能力を超えていた。モデルはどこまで大きくなるのか、そしてそれに伴うコストはいくらになるのだろうか?
GPT-3が世界の注目を集めたのは、「何ができるか」だけではなく、「どのようにしてできたのか」という点にもある。性能の目覚ましい飛躍、中でもGPT-3が特別に訓練を受けていない言語タスクにも汎化できる能力は、アルゴリズムの改良ではなく、他ならぬ規模の巨大さから生まれたのだ(ただし、グーグルが2017年に開発したトランスフォーマー(transformer)と呼ばれる新型のニューラル・ネットワークに大きく依存している)。
「新しいアイデアが必要だと思っていましたが、規模の大きさだけで切り抜けられました」。オープンAIの研究者で、GPT-3の設計者の1人であるジャレッド・カプラン博士は、12月に開催された主要なAIカンファレンス「ニューリップス(NeurIPS)」のパネルディスカッションで述べた。
マイクロソフトに在籍する2人の研究者は10月、エヌビディア(NVIDIA)との共同研究で構築した大規模な「メガトロン・チューリングNLG(Megatron-Turing NLG)モデル」を発表したブログ記事で、「超巨大化によるAIモデルの性能向上は続いていて、一見すると終わりが見えません」と書いている。
モデルが大きいとは、どういうことか? モデル、すなわち訓練済みのニューラル・ネットワークのサイズは、それが持つパラメーターの数で測られる。パラメーターとは、ネットワーク内に保持される値で、これらは訓練中に何度も調整され、モデルの予測に使用される。大まかに言えば、パラメー …