2012年後半、人工知能(AI)科学者たちはニューラルネットワークに「視覚」を与える方法を発見した。人間の脳をおおまかに模した設計のソフトウェアを利用することで、既存のコンピュータービジョンの性能を劇的に向上できることが示されたのだ。AI分野ではそれ以来、人間の思考力、聴覚、発話、そして文章作成の能力をニューラルネットワークで模倣するための方法が開発されてきた。
特定のタスク処理においてAIは驚くほど人間に近づいている。人間を超えたといってもいいだろう。しかし、依然として、人間の脳がもつ柔軟性を再現できていない。人間はひとつのコンテクスト内で学んだことを別のコンテクスト内でも応用できる。一方、例えばディープマインド(DeepMind)のゲーム用アルゴリズムである「アルファ碁(AlphaGo)」は世界トップの囲碁棋士に勝てるが、その戦略性が発揮されるのは盤上だけに限られる。つまり、深層学習アルゴリズムはパターンの発見において天才的であってもそれを理解することはできず、絶えず変化する世界に応用することもできない。
研究者たちはこの問題の解決方法について多くの仮説を提案してきたが、その中に大きな注目を浴びているものがある。子どもたちは知覚と会話を通して世界について学んでいく。どうやらこの組み合わせが重要なようだ。視覚や聴覚を含めたさまざまな感覚情報と言葉を結びつけていくことで、子どもたちは複雑な現象や相互作用の描写、因果関係と相関関係の区別、そして洗練された世界モデルの構築を少しずつ学んでいく。そうしてできたモデルは未知の環境における行動指針となり、新しい知識や経験をコンテクストと関連付ける助けにもなる。
一方、AIシステムは、一度にそのうちひとつのことをするようにしか作られていない。コンピュータービジョンと音声認識アルゴリズムはそれぞれ映像と音を感知するが、言葉を使ってそれらを記述することは …