フェイスブックの偉業
画像認識アルゴリズムに革命
画像内の物体を個別に認識するフェイスブックのテクノロジーにより、Photoshopのような画像編集ソフトや、ポケモンGOのような仮想現実アプリが大きく進化する可能性がある。 by Will Knight2016.08.26
視覚的に世界を認識するには、たとえばネコを見て認識するだけでは不十分だ。どこまでがネコで、どこからが背景かを認識する必要がある。
フェイスブックが開発し、25日に他の研究者にも公開されたコンピューター・ビジョン・アルゴリズムによって、コンピューターは視覚的に世界を認識できるようになった。フェイスブックのアルゴリズムは、画像に何があるかだけでなく、特定の物体に対応する形状も認識できる。簡単なトリックで実現しているように思えるが、正確に認識するようにコンピューターをプログラムするのはとても困難で、従来のビジョン・システムの性能を上回るテクノロジーだ。
現時点では、フェイスブックのアルゴリズムは、単なる研究ツールだ。しかし、将来的には、多くの重要なアプリケーションを生み出すかもしれない。
- Photoshopのような画像処理プログラムが自動的に背景を変えたり、写真内の人物だけを明るくしたりする
- 目の不自由なユーザーに、コンピューターの画面の内容を音声で説明する
- ポケモンGoのような拡張現実ゲームをさらにリアルにするため、ピカチューがよじ登れる物体を認識する
コンピューター・ビジョンの分野が最近飛躍的に進歩しているといっても、主に進歩しているのはある画像に何が写っているか、場面全体はどうなっているか、の認識だった。しかし、研究者はより詳細な画像認識に目を向け始めており、機械を、全体的にさらに知的にしようとしている。(「The Next Big Test for AI: Making Sense of the World」)。
研究に関わったフェイスブックのラリー・ジトニック研究部長は、「コンピューターにとって最も難しいことのひとつは、現実(実際にそこにあるもの)を理解することです。画像内の物体を個別に認識することは、場面推論にとって欠かせない要素技術なのです」
ジトニック研究部長によると、アルゴリズムは最終的に、フェイスブックに掲載される画像内の製品を自動的に区別するシステムの開発に使われたり、さらにリアルな拡張現実アプリを構築したりするために使われる、という。
「もしユーザーが子犬を仮想的に部屋に置きたいと思ったら(ポケモンGOのように単に部屋の画像に重ね合わせるのではなく)、ユーザーは子犬をソファーの上に、しかもソファーの特定の場所に置きたいと実際には思いますよね」
多くのサンプルで画像を分類するようにニューラルネットワークを訓練する大規模なシミュレーションにより、この数年間でコンピューター・ビジョンは大きく進展した。このような「深層学習」システムは一般的に、色や模様など、さまざまな特徴を認識するが、物体の輪郭は必ずしも理解できない。
フェイスブックのアルゴリズムは、この種の「画像分割」を実現するために、3つのニューラルネットワークを組み合わせた。はじめに2つのネットワークで個々のピクセルがある物体の一部なのか他の物体の一部なのかを見極める。最後にもうひとつのネットワークで、特定の物体が何であるのかを見極める。
コンピューター・ビジョンを専門にするUCLAのステファノ・ソアト教授は、研究は「非常に意義深く」また画像分割は難易度が高く、実現できていなかったため、今後たくさんのアプリケーションができるだろうという。
「どの2歳児でも、画像内の物体を指さしたり、輪郭をトレースしたりできます。しかし、だからといって簡単にできることではないのです。何百万年にわたる進化と、脳の半分の機能を動員してなし得る技なのです」
- 人気の記事ランキング
-
- What’s on the table at this year’s UN climate conference トランプ再選ショック、開幕したCOP29の議論の行方は?
- Why AI could eat quantum computing’s lunch AIの急速な進歩は 量子コンピューターを 不要にするか
- Google DeepMind has a new way to look inside an AI’s “mind” AIの「頭の中」で何が起きているのか? ディープマインドが新ツール
- Google DeepMind has a new way to look inside an AI’s “mind” AIの「頭の中」で何が起きているのか? ディープマインドが新ツール
タグ |
---|
- ウィル ナイト [Will Knight]米国版 AI担当上級編集者
- MITテクノロジーレビューのAI担当上級編集者です。知性を宿す機械やロボット、自動化について扱うことが多いですが、コンピューティングのほぼすべての側面に関心があります。南ロンドン育ちで、当時最強のシンクレアZX Spectrumで初めてのプログラムコード(無限ループにハマった)を書きました。MITテクノロジーレビュー以前は、ニューサイエンティスト誌のオンライン版編集者でした。もし質問などがあれば、メールを送ってください。