グーグルが目をつけた、ロボットの進化に役立つ意外なバズ動画
2016年のインターネットを思い返してみて欲しい。「マネキン・チャレンジ」について覚えているだろうか? 当時、クチコミによってユーチューブのトレンドとなったマネキン・チャレンジがいま、ニューラル・ネットワークに3Dシーンを理解させる訓練に使われている。
人間はもともと、2D映像を3Dシーンとして解釈することが得意だ。だが、機械は解釈の方法を教わる必要がある。自由に動く物体の奥行きと配置を2D映像から再構成する能力は有用なスキルであり、ロボットが不慣れな環境で動き回る際などに役に立つ。だからこそ自動運転車の世界では、マネキン・チャレンジが長い間、コンピュータービジョンの研究者たちを魅了してきた。
この課題へのアプローチとして、グーグルの人工知能(AI)チームは意外なデータセットに目を向けた。マネキン・チャレンジをしている人々が作った何千本ものユーチューブ動画だ(当時の流行を知らない人向けに説明すると、マネキン・チャレンジとは、体を極力動かさずに立っている人の周りを撮影役の人が動き回り、あらゆるアングルから動画を撮影する行為だ)。マネキン・チャレンジの動画はまた、期せずして、2D画像の奥行きの理解のための目新しいデータ源となっているのだ。
グーグルの研究チームは、2000本のマネキン・チャレンジの動画を高解像度の奥行きデータを含む2D画像に変換して、ニューラル・ネットワークの訓練に使用した。その結果、従来の最先端の手法を使った場合よりもはるかに高い正確さで、動画内の動く物体の奥行きを予測できた。この研究論文は、6月に開催されたコンピュータービジョンに関する主要国際会議「CVPR(Computer Vision and Pattern Recognition) 2019)」で優秀論文特別賞を受賞した。
研究チームはさらに、将来の研究を支援するためにデータセットを公開した。つまりマネキン・チャレンジに参加した何千人もの人々は、知らぬ間にコンピュータービジョンやロボット工学の研究の進歩に貢献し続けることになる。このことに顔をしかめる人もいるかもしれないが、AI研究では例外なきルールなのだ。
深層学習に革命を起こしたフェイ・フェイ・リー博士のイメージネット(ImageNet)をはじめとする基本的なデータセットの多くは、ツイッターやウィキペディア、フリッカーなどの情報源から抽出された、公けに利用可能なデータから収集されている。深層学習のアルゴリズムを訓練するのに膨大な量のデータが必要になることがその理由だが、近年、画期的な成果を得るために研究者がより大きなモデルを作るようになるのに伴ってエスカレートしている。
以前の記事に書いたように、こういったデータ抽出行為は、良いとも悪いとも明確には言えないが、AI業界での同意をめぐる規範には疑いの目が向けられている。データがますますコモディティ化され収益化されるにつれて、テクノロジストは、誰かのデータを使用する際には、そのデータが元々作成され共有された理由の精神と一致するかどうかを考える必要がある。