KADOKAWA Technology Review
×
2021重大技術:「マルチモーダル」でAIはもっと柔軟かつ堅牢になる
Selman Design
人工知能(AI) 無料会員限定
AI armed with multiple senses could gain more flexible intelligence

2021重大技術:「マルチモーダル」でAIはもっと柔軟かつ堅牢になる

人間の知能はさまざまな知覚と言語能力の組み合わせから生まれる。こうしたマルチモーダルな手法を用いれば、新しい状況や問題により容易に対処できる堅牢なAIを作り出せる可能性がある。 by Karen Hao2021.03.08

2012年後半、人工知能(AI)科学者たちはニューラルネットワークに「視覚」を与える方法を発見した。人間の脳をおおまかに模した設計のソフトウェアを利用することで、既存のコンピュータービジョンの性能を劇的に向上できることが示されたのだ。AI分野ではそれ以来、人間の思考力、聴覚、発話、そして文章作成の能力をニューラルネットワークで模倣するための方法が開発されてきた。

10 Breakthrough Technologies
この記事はマガジン「10 Breakthrough Technologies」に収録されています。 マガジンの紹介

特定のタスク処理においてAIは驚くほど人間に近づいている。人間を超えたといってもいいだろう。しかし、依然として、人間の脳がもつ柔軟性を再現できていない。人間はひとつのコンテクスト内で学んだことを別のコンテクスト内でも応用できる。一方、例えばディープマインド(DeepMind)のゲーム用アルゴリズムである「アルファ碁(AlphaGo)」は世界トップの囲碁棋士に勝てるが、その戦略性が発揮されるのは盤上だけに限られる。つまり、深層学習アルゴリズムはパターンの発見において天才的であってもそれを理解することはできず、絶えず変化する世界に応用することもできない。

研究者たちはこの問題の解決方法について多くの仮説を提案してきたが、その中に大きな注目を浴びているものがある。子どもたちは知覚と会話を通して世界について学んでいく。どうやらこの組み合わせが重要なようだ。視覚や聴覚を含めたさまざまな感覚情報と言葉を結びつけていくことで、子どもたちは複雑な現象や相互作用の描写、因果関係と相関関係の区別、そして洗練された世界モデルの構築を少しずつ学んでいく。そうしてできたモデルは未知の環境における行動指針となり、新しい知識や経験をコンテクストと関連付ける助けにもなる。

一方、AIシステムは、一度にそのうちひとつのことをするようにしか作られていない。コンピュータービジョンと音声認識アルゴリズムはそれぞれ映像と音を感知するが、言葉を使ってそれらを記述することは …

こちらは会員限定の記事です。
メールアドレスの登録で続きを読めます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. What’s on the table at this year’s UN climate conference トランプ再選ショック、開幕したCOP29の議論の行方は?
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。2024年受賞者決定!授賞式を11/20に開催します。チケット販売中。 世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を随時発信中。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2024年版

「ブレークスルー・テクノロジー10」は、人工知能、生物工学、気候変動、コンピューティングなどの分野における重要な技術的進歩を評価するMITテクノロジーレビューの年次企画だ。2024年に注目すべき10のテクノロジーを紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る