1951年、当時ハーバード大学の学生だったマービン・ミンスキーは、動物の行動の観察からアイデアを得てインテリジェントマシンの設計を試みた。動物が罰と報酬を通じて学習する仕組みを犬を用いて示した生理学者イワン・パブロフの有名な実験を参考にして、それと同様の強化を通じて継続的に学習し、仮想の迷路を解くことができるコンピューターを開発したのだ。
当時の神経科学者は、動物が罰と報酬を通じて学習することを可能にする脳内のメカニズムをまだ解明できていなかった。だが、それでもミンスキーは動物の行動を大まかに模倣して人工知能(AI)を進化させることができた。その数十年後、強化学習は進化し続け、今度は神経科学の分野における強化学習メカニズムの発見を手助けし、2つの分野で進歩の好循環が生まれた。
1月15日にネイチャー誌に掲載された論文によると、アルファベット(グーグル)のAI関連子会社であるディープマインド(DeepMind)は、再び強化学習の知見を利用して、人間の脳内の報酬メカニズムに関する新しい理論を提唱した。初期の実験結果によって裏付けられたこの仮説により、メンタルヘルスやモチベーションに関する理解が深まるだろう。さらに、より人間に近い汎用人工知能の構築を目指しているAI研究の現在の方向が正しいことを実証するかもしれない。
大まかに言えば、強化学習はパブロフの犬から導かれた洞察に従っている。つまり、正のフィードバックと負のフィードバックのみを通じて、複雑な新しいタスクを習得するようエージェントに指示できるという洞察だ。強化学習のアルゴリズムは、どの行動が報酬をもたらす可能性があるかをランダムに予測することによって割り当てられたタスクの学習を開始する。次に、行動を実行し、実際の報酬を観察して、誤差の大きさに基づいて予測を調整する。数百万回あるいは数十億回と試行を重ねるうちにアルゴリズムの予測誤差はゼロに収束する。その時点でアルゴリズムは、どの行動を取れば報酬が最大化し、タスクを完了できるかを正確に理解しているという仕組みだ。
脳の報酬システムもほぼ同じ方法で機能することが分かっている。それは1990年代に強化学習アルゴリズムにヒントを得て発見された。人間または動物が行動を起こ …