フラッシュ2024年4月16日
-
人工知能(AI)
NTT、LLMで視覚情報も含めて文書を理解する技術
by MITテクノロジーレビュー編集部 [MIT Technology Review Japan]NTTは、大規模言語モデル(LLM)によって、視覚情報も含めて文書を理解する「視覚読解技術」を実現。同社が研究開発している大規模言語モデル「ツヅミ(tsuzumi)」のアダプタ技術として採用・導入したことを明らかにした。
我々が扱う文書の多くは、テキスト以外に、アイコンや図表、グラフなどの視覚要素を含んでおり、多様な種類・形式が存在する。NTTと東北大学の共同研究チームは今回、文書を画像として捉えて、文書中の文字とその位置情報、画像の特徴を定量的に表現した画像情報、指示テキストを、同一空間上にマッピングする技術を開発。文書画像のマルチモーダルな特徴を、大規模言語モデルにとって解釈しやすい情報として獲得できるようにした。
続いて、文書画像を知識源として、質問応答や情報抽出、文書分類といった12種類の視覚読解タスクを、ヒトの指示を基に遂行するデータセットを構築。大規模言語モデルが、文書の内容を視覚と言語を融合して理解できるようにした。その結果、未学習のタスクにおいても、目的タスクで学習をした教師あり学習モデルやGPT-4(テキスト入力のみ)、画像を理解できる大規模言語モデルである「LLaVA」に匹敵または凌駕する高性能を達成できたという。
研究内容は、2024年2月20~27日にカナダ・バンクーバーで開催された「第38回人工知能に関するAAAI年次会議(The 38th Annual AAAI Conference on Artificial Intelligence:AAAI2024)において発表された。
(中條)
-
- 人気の記事ランキング
-
- Why the next energy race is for underground hydrogen 水素は「掘る」時代に? 地下水素は地球を救うか
- How a top Chinese AI model overcame US sanctions 米制裁で磨かれた中国AI「DeepSeek-R1」、逆説の革新
- The second wave of AI coding is here マシン・プログラミングで 人海戦術に終止符、 AIコーディングに第二の波
- This quantum computer built on server racks paves the way to bigger machines ザナドゥ、12量子ビットのサーバーラック型光量子コンピューター