5年前、画像読み取りソフトウェアの精度を高める点で、研究者は突如飛躍的な進化を成し遂げた。背後にあるテクノロジー「人工ニューラル・ネットワーク」が最近の人工知能開発の急激な盛り上がりを支えている(“10 Breakthrough Technologies 2013: Deep Learning”参照)。だからこそ、グーグルやフェイスブックで、ユーザーは自分が保存した写真を検索できるし、顔認識といった新機能を使えるようになった。
フェイスブックAI研究所の所長を務めるニューヨーク大学のヤン・ルクン教授は、マシン・ビジョン用途でニューラル・ネットワークを利用するにあたって先駆的な役割を果たした人物だ。ラクン教授によると、いまだに発展途上な部分はあるが、コモンセンス(常識)を備えたソフトウェアの開発につながる可能性があるという。
現時点でマシン・ビジョンはどれだけ進化していますか?
主役となるモノが目立つ形で写る画像で、最優先課題が被写体を分類することなら、実にうまく行きます。訓練用データが十分にあれば、ひとつのカテゴリーにつき1000ほどの被写体画像データがあれば、自動車ならブランドまで、植物なら種類まで、犬なら犬種まで、モノであれば非常に具体的な形で認識できます。もっと抽象的なカテゴリーの画像、たとえば、画像が風景なのか、夕日、結婚式、誕生パーティーなのかも判別できます。ほんの5年前、この種の課題を完全に解決できるか、はっきりしていませんでした。ただし、ビジョン(視認)という課題が解決できたわけではありません。
「未解決」の重要課題は何でしょうか? …