AI(人工知能)が写真や映像の内容を認識できることを私たちは当然のように考えている。しかしこの能力は、イメージネット(ImageNet)のような巨大データベースに依るものだ。イメージネットは人の手により収集・整理された数百万枚もの写真データベースであり、過去10年間において好成績をおさめた画像認識モデルの大半の訓練に利用された。
しかし、そうしたデータベースの画像は精選された物体の世界を表現している。いわば画廊のようなものであり、私たちが日々の生活で経験しているような雑然とした世界を捉えてはいない。私たちが見ているのと同じようにAIに物事を見させるためには、まったく新たな手法が必要になってくる。フェイスブックのAI研究所が、その先鞭をつけようとしている。
フェイスブックが最近立ち上げた「エゴ4D(Ego4D)」と呼ばれるプロジェクトは、一人称視点、つまり傍観者ではなく当事者視点で場面や活動を理解できるようなAIの開発を目指している。第三者によって撮られたきれいな額縁に入っているようなシーンではなく、動きながらゴープロ(GoPro)で撮った、被写体ブレが生じているような動画を思い浮かべると良いだろう。 フェイスブックは、エゴ4Dの一人称視点映像に、イメージネットの写真と同じ役割を果たさせたいと考えているのだ。
フェイスブックAIリサーチ(Facebook AI Research:FAIR)は過去2年間、世界の13の大学と協力し、深層学習による画像認識モデルの訓練用に、過去最大の一人称視点映像のデータセットを作成した。このデータセットでAIを訓練すれば、人間と関わるロボットの制御や、スマートグラスを通した画像判読の精度がより向上するだろう。「人々の目を通した世界を本当に理解できるようになれば、AIは日々の生活に大いに役立つようになるでしょう」と話すのは、FAIRの研究員で当プロジェクトを率いるクリステン・グローマン博士だ。
そのような技術は、自宅での生活で援助を必要とする人々を助け、あるタスクの習得を目指している人々を上手く指導できるかもしれない。「エゴ4Dのデータセットに保存されている映像は、人間が世界を観察するのにかなり近くなっています」。グーグル・ブレイン(Google Brain)とニューヨーク州立大学ストーニーブルック校に所属するコンピュータービジョンの研究員であるマイケル・リュウ准教授はこう話す(同准教授はエゴ4Dの開発には携わっていない)。
一方で、この技術が悪用される可能性があることも明白であり、憂慮している人々もいる。エゴ4Dは、人々の幸福より自社の利益を優先しているとして米上院で最近非難されたソーシャルメディア大手、フェイスブックが資金を出しているのだ。同社が利益を優先しているという上院による所感は、MITテクノロジーレビューの独自調 …