歴史学の未来
AIは膨大な史料から
何を見出せるか?
歴史家たちはコンピューター科学を駆使して、これまで解明されていなかった何世紀も前の一般の人々の生活を解明しようとしている。 by Moira Donovan2023.06.23
1531年のある日。夜のベネチアの街。印刷所で見習い工が1人、天文学の教科書のページのレイアウトに奮闘していた。ぎっしり詰まった活字、月食を表す、宇宙を移動する図形を見守る天使の頭が描かれた木版画。
16世紀の書籍制作はどの工程も時間がかかる。レイアウトも例外ではない。だが、印刷の登場によって、以前では考えられないほどのスピードで知識が広まるようになった。
500年が経ち、情報生産の形はまったく変わった。テラバイト級の画像、映像、テキストがデジタルデータとして瞬時に流通し、即座に分析される必要がある。この流れを整理するために、機械学習の訓練を許し、求める必要があるのだ。情報生産におけるこの大きな変化は、アートの創造から医薬品の開発まで、あらゆるものの未来に影響を及ぼす。
だが、こうした進歩によって過去のデータを違った角度からも見られるようになった。歴史学者たちは、歴史資料を研究するために機械学習、中でも深層ニューラル・ネットワーク(DNN)を利用し始めたからだ。例えば、ベネチアなどの近世都市で印刷された天文表といった、何世紀もカビくさい書庫で保管されていたために汚れていたり、印刷ミスによって歪んでいたりする歴史的文書の研究である。
歴史家によると、現代のコンピューター科学を遠い過去に適用すれば、1つの文書だけを分析することで生じる歴史の歪みを修正し、他の方法ではまず不可能なほどの広い範囲の歴史的記録の関連性を引き出せるという。だが、この手法ならではの歪みが生じることもある。例えば、機械学習によるバイアスやあからさまな改ざんが歴史記録に滑り込むリスクだ。結局、歴史家をはじめ、歴史を検証することで現在を理解しようとしている人々は、1つの疑問に行き着く。将来、機械の役割が大きくなるとして、我々は過去の歴史についてどのくらい機械に委ねるべきなのだろうか。
複雑性の解析
増え続ける歴史的文書をデジタル化する取り組みを通じて、人文科学の分野でもビッグデータが誕生した。米国議会図書館の数百万ページに及ぶ新聞のコレクションや、フィンランド公文書館所蔵の19世紀にさかのぼる裁判記録などがその例だ。研究者にとって、これは問題であると同時にチャンスでもある。情報量は莫大に増えているのに、多くの場合、これまではそれを精選する方法がなかったからだ。
課題は、複雑性の解析を支援するコンピューター・ツールが開発されることで解決されてきた。2009年、オーストリア科学アカデミーのヨハネス・プライザー・カペラー教授は、14世紀のビザンチン教会が決定した登録簿を調べていた。数百もの文書の意味を理解するには、司教たちの関係性を体系的にデジタル化して調査する必要があることに気づく。教授は、人物ごとのデータベースを構築し、ネットワーク分析ソフトウェアを使って彼らの関係性を再構築した。
この再構築によって隠れていた影響力のパターンが明らかになり、プライザー・カペラー教授は、会議で最も多く発言した司教が最も力を持っていたとは限らない、と主張するようになった。以来、彼は、この手法を14世紀のビザンチン帝国のエリート層など他の人脈に応用し、女性の見えない貢献によって社会構造が維持されていたことを解き明かしている。「公に認められているナラティブ(物語)の外で起こったことを、ある程度解明できるようになりました」(プライザー・カペラー教授)。
プライザー・カペラー教授の研究は、学問の世界で起きている流れの一例にすぎない。しかし、機械学習はつい最近まで、膨大なテキストのコレクションから結論を導き出せないことが多々あった。というのも、歴史的資料には、機械では解読できない部分があるからだ(プライザー・カペラー教授の場合は、乱筆の手書きギリシャ語)。現在、深層学習の進歩によって、大規模で複雑なデータセットからパターンを抽出することで、こうした限界にも対応できつつある。
800年ほど前、13世紀の天文学者ヨハネス・ド・サクロボスコは、天動説宇宙論の入門書『天球論(Tractatus de Sphaera)』を出版した。論文は、近世の大学生の必読書になった。最も広く読まれた天動説宇宙論の教科書であり、16世紀にコペルニクス的転回によって天動説がひっくり返った後も廃れなかった。
『天球論』は、1472年から1650年の間に発行された天文学の教科書359冊、数万点もの科学的な図や天文表を含めて7万6000ページに及ぶデジタル化されたコレクションの主役でもある。マックス・プランク科学史研究所(Max Planck Institute for the History of Science)のマッテオ・バレリアーニ教授は、その包括的なデータセットから欧州の知識の進化が共通の科学的世界観に至るまでの過程をたどれるのではないかと考えた。だが、そのパターンを識別するには人間を超えた能力が必要なことに気づいた。そこで同教授とベルリン学習・データ基礎研究所(BIFOLD)の研究者チームが目をつけたのが、機械学習だった。
データセットを研究に活用するためには、コレクションを3つのカテゴリーに分類する必要があった。テキスト部分(明確な始まりと終わりがある特定の主題に関する文章のセクション)、月食などの概念を説明するのに役立つ科学的な図版、そして、天文学の数学的要素を教えるために使われた数値表の3つである。
バレリアーニ教授によると、当初、コレクションのテキストはアルゴリズムによる解釈に適合しないものだった。まず、書体が多種多様だった。近世の印刷所は書籍用の独自書体を開発して印刷しており、オリジナルの活字を鋳造する冶金工場を抱えている印刷所も多かった。つまり、自然言語処理(NLP)を使ってテキストを読み取るモデルは、書籍の書体にあわせて再訓練する必要があったのだ。
言語も問題になった。多くのテキストは地域固有のラテン語の方言で書かれているため、歴史的な言語で訓練されていない機械には認識できないことが多い。「訓練で使える言語の語彙がない場合、一般的にNLPの大きな制限になります」とバレリアーニ教授は話す。これは、NLPが英語のような支配的な言語では機能するが、例えば古代ヘブライ語ではあまり効果的ではない理由の1つである。
代わりに研究者チームは手作業で原典からテキストを抽出し、文書セット間における単一のリンクを特定した。例えば、あるテキストの模倣や翻訳が別の書籍で見られる場合などである。このデータをグラフにして、すべての記録を含むネットワークにリンクが自動的に埋め込まれるようにした(その後、研究チームはグラフを使って、テキスト間のつながりを示唆する機械学習の手法 …
- 人気の記事ランキング
-
- Bringing the lofty ideas of pure math down to earth 崇高な理念を現実へ、 物理学者が学び直して感じた 「数学」を学ぶ意義
- Promotion Innovators Under 35 Japan × CROSS U 無料イベント「U35イノベーターと考える研究者のキャリア戦略」のご案内
- The 8 worst technology failures of 2024 MITTRが選ぶ、 2024年に「やらかした」 テクノロジー8選
- Google’s new Project Astra could be generative AI’s killer app 世界を驚かせたグーグルの「アストラ」、生成AIのキラーアプリとなるか
- AI’s search for more energy is growing more urgent 生成AIの隠れた代償、激増するデータセンターの環境負荷