KADOKAWA Technology Review
×
新型コロナ2万4000本以上の論文データセット、AI2などが公開
Laurence Dutton / Getty
Over 24,000 coronavirus research papers are now available in one place

新型コロナ2万4000本以上の論文データセット、AI2などが公開

新型コロナウイルス感染症(COVID-19)と戦う科学者を支援するため、関連する2万4000本以上の論文をまとめたデータセットが公開された。 by Karen Hao2020.03.18

複数の組織を横断して協力する研究者たちが、「CORD-19(COVID-19オープン・リサーチ・データセット)」を3月16日、公開した。査読済論文を掲載する学術誌と、バイオアーカイブ(bioRxiv)やメドアーカイブ(medRxiv)といったプレプリント(査読前論文)を投稿できるWebサイトなどを情報源とする、2万4000本以上の論文が含まれたデータセットだ(日本版編注:2万4000本はメタ情報。全文1万3000本以上)。新型コロナウイルス(SARS-CoV-2)や新型コロナウイルス感染症(COVID-19)、コロナウイルス属に関する研究を対象とする。現在進行中のパンデミック(世界的な流行)に関する科学文献を集めたものとして最大規模を誇り、新たな研究が発表されれば随時更新される。

同データセットは、米国科学技術政策局(Office of Science and Technology Policy:OSTP)の要請で3つの組織が協力してまとめた。米国立衛生研究所(National Institutes of Health:NIH)の国立医学図書館(National Library of Medicine:NLM)が既存の科学出版物へのアクセスを提供し、マイクロソフトは自社の文献キュレーション・アルゴリズムを使って文献を収集。非営利のアレン人工知能研究所(AI2)が、WebページやPDFの関連記事を、アルゴリズムで処理できる構造化された形式に変換した。同データセットは現在、AI2のWebサイト「セマンティック・スカラー(Semantic Scholar)」で利用可能だ。

AI2のセマンティック・スカラー・サービスは科学コミュニティが学術文献を簡単に検索できるようにするサービスである。AI2は同サービスの一環としてすでに、すべての新たな研究に適用しているものと同じ情報抽出・分析の手法でCORD-19の新たなコーパスを処理している。論文の著者や研究手法、データ、抜粋といった主な情報を抽出し、それぞれの論文が既存の研究に追加している部分をすばやく判断できるようにしている。

またセマンティック・スカラーは「エルモ(ELMo)」や「バート(BERT)」といった最新の自然言語モデルを使い、複数の論文間の類似性をマッピングする。それによって、研究者が自分の関心に基づく個人用研究フィードの作成を実現する。

科学界は今、新型コロナウイルスの拡大を防ぐため、ウイルスの性質に関する差し迫った問題に答えを出そうと寸暇を惜しんで研究に取り組んでいる。今回のデータセットは既存の研究を一か所に集めるだけでなく、自然言語処理アルゴリズムで文献の本文を検索し、知見を得やすくするのに役立つ。米国科学技術政策局はAI研究者に対し、医療コミュニティが大量の情報をすばやく検索できるようなテキストマイニングおよびデータマイニングの新手法を開発するよう広く呼びかけている。

(関連記事:新型コロナウイルス感染症に関する記事一覧

人気の記事ランキング
  1. Who’s to blame for climate change? It’s surprisingly complicated. CO2排出「責任論」、単一指標では語れない複雑な現実
  2. Who’s to blame for climate change? It’s surprisingly complicated. CO2排出「責任論」、単一指標では語れない複雑な現実
カーレン・ハオ [Karen Hao]米国版 AI担当記者
MITテクノロジーレビューの人工知能(AI)担当記者。特に、AIの倫理と社会的影響、社会貢献活動への応用といった領域についてカバーしています。AIに関する最新のニュースと研究内容を厳選して紹介する米国版ニュースレター「アルゴリズム(Algorithm)」の執筆も担当。グーグルX(Google X)からスピンアウトしたスタートアップ企業でのアプリケーション・エンジニア、クオーツ(Quartz)での記者/データ・サイエンティストの経験を経て、MITテクノロジーレビューに入社しました。
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。2024年受賞者決定!授賞式を11/20に開催します。チケット販売中。 世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を随時発信中。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2024年版

「ブレークスルー・テクノロジー10」は、人工知能、生物工学、気候変動、コンピューティングなどの分野における重要な技術的進歩を評価するMITテクノロジーレビューの年次企画だ。2024年に注目すべき10のテクノロジーを紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る