An AI algorithm inspired by how kids learn is harder to confuse

子どもの学習方法に着想、データ効率を高める機械学習の新アプローチ

深層学習では、機械学習モデルの正確さを高めるには訓練用データの量を増やすことが一般的だ。カーネギーメロン大学の研究者らは、親が子どもに教える方法にヒントを得て、データ量を増やさなくてもモデルの正確さを高められる学習アルゴリズムを見い出した。 by Karen Hao2020.05.11

機械学習アルゴリズムを訓練する標準的な方法は、すべての詳細情報を一度に与えることだ。さまざまな動物の種類を認識する画像分類システムを構築している場合であれば、各種類の例を示し、それに応じてラベルを付ける。たとえば、犬の場合であれば「ジャーマンシェパード」や「プードル」といった具合だ。

だが、人間の親が子どもに何かを教えるときのアプローチはまったく異なる。親ははるかに広範なラベルで始める。どんな犬種であっても最初は単に「犬」である。子どもがこうしたより単純なカテゴリを区別する方法を学習した後に初めて、親はそれぞれをより詳細な種類に分類する。

このアプローチに発想を得て、カーネギーメロン大学の研究者は、物事を段階的に分類することをニューラルネットワークに教える新しい方法を編み出した。ネットワークは訓練の各段階で同じ訓練用データを参照するが、ラベルはシンプルで幅広いものから始まり、訓練の段階が進むにつれてより具体的になる。

訓練の段階の進捗を判断するために、研究者らは、最初にニューラルネットワークに訓練用データと最終的な詳細ラベルを示した。それから、人工知能（AI）モデルが区別するのがもっとも難しかったカテゴリを示す「混乱マトリックス」を計算して訓練の進捗具合を判断した。訓練では、初期段階で最も区別がつきにくかったカテゴリを1つのラベルの下でグループ化し、その後の繰り返しで、それらを細かいラベルに分割し直していった。

いくつかの一般的な画像分類データセットを使用してテストした結果、ほとんどの場合、このアプローチで最終的に得られた機械学習モデルは、従来の方法で訓練したモデルより優れていた。もっともよい場合で、分類の正確さが7％も向上した。

今回のアプローチは新しいものだが、その背後にあるアイデア自体はそうではない。難易度を段階的に高めてニューラルネットワークを訓練することは「カリキュラム学習」として知られており、1990年代から存在している。ただし、これまでのカリキュラム学習では、ニューラルネットワークの訓練の各段階で、異なるデータのサブセットを使うことを重視している。同じデータに異なるラベルを付けて各段階の訓練に使う今回の手法は、4月26日から5月1日に開催されたバーチャルICLR（ International Conference of Learning Representations、学習表現に関する国際会議）で、論文の共著者であるオティリア・ストレッツによって発表された。

広範にわたる今日の深層学習研究の大半は、モデルのサイズに重きを置いている。画像分類システムが異なる物体を区別することが困難な場合、それは十分な例で訓練されていないことを意味する。しかし、スレッツらは人間の学習方法から洞察を得て、まったく同じ訓練用データを使ってより良い結果を得られる新しい方法を見い出した。今回の成果は、よりデータ効率の高い学習アルゴリズムを作成する方法のヒントとなるだろう。

人気の記事ランキング

カーレン・ハオ [Karen Hao]米国版寄稿者: 受賞歴のあるフリー・ジャーナリスト。人工知能が社会に与える影響について取材している。ウォール・ストリート・ジャーナル紙の海外特派員として中国のテクノロジー業界を担当。2022年4月まではMITテクノロジーレビューのAI担当上級編集者を務めた。