ソフトウェアが視覚的に世界を認知する「コンピュータービジョン」が注目されている。画像認識アルゴリズムが世界をずっと賢く認識できるようになったからだ。だが、画像に猫が写っていることを正確に判別できるからといって、機械が「人間のように」認識しているとは思わない方がよい。
コンピュータービジョンがニューラルネットワークで画像の特徴を認識するプロセスは人間の脳の生物学的モデルがヒントになっている。アーキテクチャとして見れば人間の視覚とコンピュータービジョンはよく似ているが、生物学的な意味での知覚とニューロンは、コンピューター内では数学の関数で置き換えられている。フェイスブックとバージニア工科大学の研究チームによる調査では、両者は類似しているとはいえ、軽々に同一視すべきではないという。
人間と人工知能が画像を理解するとき何が起きるのか? 研究チームは、両者が何に注目したかを正確に調べるため、人間と人工知能にわざとボカシの入った画像を見せて、そこに何が写っているか、たとえば「猫はどこですか?」と質問した。実験では、質問ごとに画像の一部のボカシを外せるようになっており、人間と人工知能が正解するまで質問を繰り返した。また、研究チームは複数のアルゴリズムを試験対象にした。
人間も人工知能も正解にたどり着いたが、この実験で興味深いのは問題を解く方法の違いだ。人間か機械かに関わらず、異なる主体が同じ対象物を認識するときの一致度を完全一致の1から完全不一致の-1で表現するとき、人間同士の一致度は平均0.63だったのに対し、人間と人工知能間では平均0.26だった。つまり、人工知能は、同じ画像を見せられ、同じ質問をされ、同じく正解しても、画像のどこを見て対象物を認識できたかの意味で、人間同士ほど人間に似ていないのだ。
実験結果は、コンピュータービジョンの研究者の想定を明確に裏付けた。たとえばコーネル大学とワイオミング大学の研究チームは2014年、ソフトウエアが対象物を学習したときの強い視覚的特徴のある人工知能用のだまし絵があり得ることを示していた。人間は知覚以外にも大量の常識があるのでトリックには引っ掛からない。だからこそ、世界中の研究者が目に見える世界を解釈できる新種の知能ソフトに取り組んでいるのだ。
ただし、だからといって、人間と異なるアプローチを取る人工知能が人間に劣るとは限らない。実際、人間のアプローチを完全に無視する方が人間の認知を超える可能性もある。
一般的に、コンピュータビジョンでは「教師あり学習」と呼ばれる手法でニューラルネットワークを用い、画像の意味を読み取る。画像の単純なパターンから模様を識別、複雑に組み合わさった形状を認識して、対象物の名前と結びつける学習過程では、たとえば「猫の画像」のように、人間が事前に意味付けを済ませた正解画像を人工知能に与えることで、コンピューターの学習内容と正解が結び付く。
一方で、フェイスブックとグーグル・ディープマインドの研究チームは、動画と画像を読み取り、人間の顔や日常的な世界を、人間が一切介入することなく認識させる教師無し学習システムを実験中だ。また、最近ツイッターに買収されたマジックポニーも教師あり学習は使わず、画像の統計的パターンを認識し、画像にあるモノの境界や模様等の特徴がどう見えるべきかを自己学習させている。
こうしたアプローチでは、人工知能の知識は、恐らく人間とはまったく異なるプロセスで形成される。人間の脳にヒントを得て現段階にたどり着いた人工知能は、今後は人工知能のやり方に徹することで、人間を打ち負かすのかもしれない。