機械学習では通常、大量のサンプルが必要になる。例えば、人工知能(AI)モデルに馬を認識させる場合には、何千枚もの馬の画像を示す必要がある。これは人間の学習とは大きく異なる点であり、AIの計算コストを高くする要因となっている。人間の子どもは、物体をほんの数例、時には1つの例を見るだけでその物体を一生認識できるようになる。
さらに、子どもは何かを識別するために、例を見る必要がないことさえある。子どもに馬とサイの写真を見せて、ユニコーンはこの中間の生き物だと伝えれば、子どもは初めて絵本でユニコーンを目にした時にユニコーンだとわかる。
AIモデルでも同じことができるはずだと示唆する新しい論文を、カナダのウォータールー大学の研究チームが発表した。同チームはこのプロセスを「LOショット学習」(「LO」は"Less than One"の短縮形で「ワンショット未満」の意)と呼んでいる。訓練で使用したサンプルの数よりも多い数の物体を、AIモデルが正確に認識できる学習モデルであるという。必要なデータセットがますます増加するにつれてAIのコストがますます高価になり、手が届かなくなってしまった分野の研究者にとっては大きな朗報かもしれない。
「LOショット」学習の仕組み
研究チームはまず、コンピュータービジョンのデータセットとして広く使われている「MNIST」データベースを使って実験し、LOショット学習の概念を実証した。MNISTは「0」から「9」までの手書きの数字の画像を6万枚含む訓練用データセットで、AI分野で新しい概念をテストするためによく使用されている。
マサチューセッツ工科大学(MIT)の研究チームが以前の論文で、巨大なデータセットを小さなデータセットに「蒸留」する手法を示し、その概念実証として、MNISTをわずか10枚の画像に圧縮した。10枚の画像は元のデータセットから選択されたものではなく、MNISTの全データセットと同等の量の情報が含まれるように入念に作成され、最適化されたものだ。その結果、この10枚の画像のみを使って訓練をしたAIモデルは、MNISTの全画像を使って訓練したものとほぼ同じ正確さを達成できた。
ウォータールー大学の研究チームは、この蒸留プロセスをさらに進めたいと考えた。6万枚の画像を10枚に縮小できるなら、5枚に絞り込めるのではないか? そこで研究チームが思いついた秘策は、複数の数字を合成した画像を作成し、合成した「ソフトな」ラベルを …