「実際に見る」能力をコンピューターに与えることは、何十年もの間、数多のコンピューター科学者の大きな目標となっている。アンドレイ・カルパシーはその目標の達成に最も近づいた研究者の一人だ。カルパシーの深層ニューラル・ネットワークの手法を使えば、画像内で何が起こっているかを機械に理解させることが可能となる。
スタンフォード大学の大学院生時代、カルパシーは「畳み込みニューラルネットワーク(CNN)」の構築方法を拡張した。CNNは、視覚野のニューロン構造を広く模倣したシステムである(2015年にカルパシーはスタンフォード大学初の深層学習講座を考案し、主任講師となった)。
カルパシーの研究成果を利用することで、テスラはほかの大部分の自動車メーカーとは異なるアプローチをとっている。
CNNと他の深層学習の手法を組み合わせることで、カルパシーは、画像内の個別の物(犬や人など)を認識する能力が優れているだけでなく、物体がたくさんある場面(互いにやり取りしている複数の犬や人)全体を見ることのできるシステムを開発した。このシステムは、画像内で起こっていることやその後に想定されることのストーリーを、効率的に構築することも可能だ。
カルパシーは2017年にテスラに入社し、車のオートパイロット機能のためのニューラル・ネットワーク分野の責任者を務めている。オートパイロットには、衝突検知や自動運転、呼び寄せ機能(駐車場所から車を自動運転させる機能)が含まれる。
カルパシーの研究成果を利用することで、テスラはほかの大部分の自動車メーカーとは異なるアプローチをとっている。自動運転車は通常、高価なレーザー測距器で周囲をスキャンして仮想マップを作成した後、人工知能(AI)を使用して何をするかを判断する。しかし、テスラの自動運転車では従来型のカメラが使用される。カルパシーの手法を使えば、人間のドライバーのように路上の物体を検知できるだけでなく、他の車や人、交差点、一時停止の標識など場面全体を考慮できる(意図したとおりに動作すればの話だが)。そして、何が起こっているかを即座に推論する。そうしたことを実現するために、100万台以上の車が見て学習したデータを、50近くのニューラルネットワークで常時処理している。