神経科学における興味深い目標の1つに、脳をスキャンしたデータを分析して、人が知覚している画像を再構成することがある。人が何を見ているのかを、視覚野の活動を監視することで知ろうというのである。
問題となるのはもちろん、機能的核磁気共鳴画像法(functional MRI:fMRI)のスキャンで得たデータを、効率的に処理する方法を見つけることである。脳内の3次元ボクセルの活動を、画像の2次元ピクセルに対応付けなければならないからである。
困難であることは明らかだ。fMRIスキャンはノイズが多いことで有名であり、さらに、1つのボクセルの活動が他のボクセルの活動に影響されることもよく知られている。相関関係を扱うには、非常に膨大な計算が必要となる。これまでのほとんどのアプローチでは、相関関係を単に無視してしまったため、著しく品質の低い画像しか再構成できずにいる。
脳内画像をより正確に再構成するには、fMRIスキャンのデータを大量処理するためのより優れた方法を見つけ出すことが重要な目標になる。
中国・北京のブレイン・インスパイアード・インテリジェンス研究センターの大学院生チャンドュ・ドゥと共同研究者は、ボクセル間の非線形相関関係を柔軟に扱える深層学習技術を使用したデータ処理により、脳が知覚している画像をより正確に再構築できることを示した。
チャンドュたちは、たとえば1桁の数字や1つの文字といった、単純な画像を被験者に見せて、その際の視覚野の様子をfMRIでスキャンしたデータセットから学習を開始した。各データセットは、脳のスキャン画像と元の画像で構成されている。
目標は、fMRIスキャンの画像を使用して、知覚している画像を再現する方法を見つけることである。そのために、fMRIスキャン画像と元の画像のセットを、合計1800以上使用した。
手法自体は単純な深層学習である。データのうち90%を使用して、スキャン画像と元の画像の相関を理解するようにネットワークを訓練する。
それから、残りのデータを使って、スキャン画像から元の画像を再構築できるかどうかをテストする。
この手法の大きなメリットの一つは、画像を再構成するためにどのボクセルを使用すべきかをネットワークが学習するので、すべてのデータを処理しなくても済むことだ。
ネットワークはまた、ボクセルのデータがどのように相関しているかも学習する。相関を無視すると、ノイズとみなされて捨てられてしまうデータが出てきてしまう。チャンドュたちの新しい手法である「深層生成マルチビュー・モデル(deep generative multiview model)」では、相関を調べることで、実際のノイズとそうではないものとを区別する。
深層生成マルチビュー・モデルによる再構成の結果を、他の多くの脳内画像の再構成技術と比較した結果は、興味深いものだった。チャンドュたちは、標準的な画像比較法を用いて、再構成された画像が元の画像にどれだけ一致するかを確認した。
深層生成マルチビュー・モデルで再構成された画像は全体的に、元の画像を明瞭に再現したものとなっており、多くの場合、他の手法よりもはるかに正確である。
このことは画像比較の測定指標からも確認できる。「実験における様々な比較結果は、深層生成マルチビュー・モデルが、人間が知覚している画像をfMRIスキャンデータからより正確に再構成できることを実証しています」。
脳内画像を再構成することは、より優れたブレイン・マシン・インターフェイスを創り出すための重要なステップである。次のステップは、より複雑なシーンや動画を分析する方法を見つけ出すことになるだろう。チャンドュたちのアプローチは、音声や運動といった他の脳内活動を解明するのにも応用できるという。
それ以上どうなるのかは、誰にもわからない。しかし、人々が何を考えているのか、あるいはどんな夢を見ているのかを脳スキャンにより明らかにする技術が可能になると考えても飛躍しすぎではないだろう。ちょっと想像してみてほしい。
(参照:arxiv.org/abs/1704.07575: 深層生成画像の共有で、知覚された画像を人間の脳活動から再構成する:“Sharing deep generative representation for perceived image reconstruction from human brain activity”)