KADOKAWA Technology Review
×
AI Machine Attempts to Understand Comic Books ... and Fails

マンガが読めるのは人間だけ
人工知能にはまだ早かった

マンガを読んでストーリーを理解するのは、驚くほどに知的な作業なのだ。 by Emerging Technology from the arXiv2016.11.24

人工知能の能力が人間を凌駕した事例は、驚くべき速さで増えている。顔や物体の認識、チェス、囲碁からビデオゲームまで、多くの人間の仕事が、この戦いに破れて脱落した。

こうなると、どんな種類の仕事なら機械が苦手なのか、と聞きたくなるのが自然だ。まだ人間が実権を握っている領域は残っているのだろうか?

11月23日、メリーランド大学カレッジパーク校のモヒト・リヤー研究員のチームのおかげで、ある程度の答えが得られた。研究チームは人工知能がどれだけマンガを理解できるのか調査し、機械と人間では、人間の方がずっとマンガを理解する能力が高いと判明したのだ。ガッツポーズせざるを得ない研究成果だ。

マンガは、高度に様式化された、写真とはまったく別の、手描きの絵によるコマの連続で物語を構成することが多い。また、それぞれのコマには思考やセリフ、ナレーションなど、吹き出し形式のテキストによる注釈がついている。

テキストと絵は強く結び付いてストーリーを作り出す。絵やテキストのどちらかだけではストーリーを追えなくなるほど密接だ。それでも、コマからコマへ移るときは、読み手にはかなりの推測と補完が求められる。ストーリーの細部を、読み手が埋める必要があるのだ。

「マンガを本当に面白くしているのは、クリエイターがページの背後に隠しているもの(枠内の空間では語られない会話、描かれないアクション)です」と研究チームはいう。つまり、マンガとは、読み手の想像力によってストーリーが築かれている、と研究チームは考えている。

個々のコマを見て、それが前のコマとどう繋がっているのかを理解する「閉合(closure)」と呼ばれる複雑な心理学的作用は、今のところ人間独自の能力のはずだ。

研究チームが、機械に閉合能力があるかを調べる試験を考案し、実験したのは、今でも人間独自の能力かを調べるためでもある。

研究チームは、深層学習の訓練用に1930年代から1950年代に発行されたマンガの巨大データベースを作ることから始めた。当時はマンガの黄金時代と呼ばれ、厳しい表現規制が導入された1950年代後半に終わった。当時の出版物の著作権は期限切れで、デジタル・コミックス・ミュージアム(DCM)にユーザーがアップロードしたJPEGファイルが公開されている。

研究チームは、DCMで評価がもっとも高い4000冊のマンガ作品から120万以上のコマを抜き出し、データベース化した。各コマのセリフ等はOCRでテキスト化した。

研究チームは閉合を試験するために、コマの連続を見せ、次にどのコマが来るのかを選択肢から予測する実験を考案した。実験では、次の絵やテキストを予測するか、テキストから登場人物の正しい組み合わせを選ぶこともある。

機械はまず、マンガのストーリーがどのようにコマとして実現されているかを学習した。研究チームが、さまざまな機械学習アルゴリズムにコマとテキストがどう調和しているのかを教えると、機械はコマが互いにどのように続いているのかを学習できた。ただし、学習した人工知能は初めからマンガ専用ではなく、自然画像内の物体を認識するように事前に訓練されている。

研究チームは、訓練後の機械に、機械にとって初見のコマについて、選択肢から次に来る絵やテキストを予測できるかを検証した。

その結果、驚くべき結果が得られた。人間が80%以上の確率で次に来る絵やテキストを正しく予測できるのに対し、機械の精度は人間にはまったく及ばなかった。

どのアーキテクチャでも人間の基準を上回れないのは、マンガを理解することの難しさを物語っている。自然画像で訓練されたモデルを使った画像認識機能は、芸術的スタイルの数多くのバリエーションを読み取れず、テキストのモデルは、視覚的な文脈に高度に依存している、話し言葉による対話の深さと曖昧さを理解しきれない。

マンガに直接描かれていない常識がなければストーリーついていけないこと、マンガのストーリーテリングに使われるロジックを理解するには、文化的知識が必要であることは当然だ。そのため、少なくとも現時点では、マンガを読むことに関しては、まだ人間が上手である。

しかし、人間的な知能に欠かせないはずの社会の知識や、推察する技能を学べば、機械の能力は確実に高まるだろう。

そこからは、興味深い可能性を浮かんでくる。AIは、チェスやジェパディ!、囲碁等で人間を打ち負かしてきた。AIは、次の挑戦で人間よりもよくマンガを理解できるかもしれない。そうなれば、物語を作り出せるかもしれない。グーグル・ディープマインドの将来の対戦相手は、マーベルやDCコミックスのキャラクターかもしれない。それはまさに闘いだし、きっと面白くなるだろう。

 

人気の記事ランキング
  1. What’s on the table at this year’s UN climate conference トランプ再選ショック、開幕したCOP29の議論の行方は?
  2. This AI-generated Minecraft may represent the future of real-time video generation AIがリアルタイムで作り出す、驚きのマイクラ風生成動画
エマージングテクノロジー フロム アーカイブ [Emerging Technology from the arXiv]米国版 寄稿者
Emerging Technology from the arXivは、最新の研究成果とPhysics arXivプリプリントサーバーに掲載されるテクノロジーを取り上げるコーネル大学図書館のサービスです。Physics arXiv Blogの一部として提供されています。 メールアドレス:KentuckyFC@arxivblog.com RSSフィード:Physics arXiv Blog RSS Feed
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。2024年受賞者決定!授賞式を11/20に開催します。チケット販売中。 世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を随時発信中。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2024年版

「ブレークスルー・テクノロジー10」は、人工知能、生物工学、気候変動、コンピューティングなどの分野における重要な技術的進歩を評価するMITテクノロジーレビューの年次企画だ。2024年に注目すべき10のテクノロジーを紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る