KADOKAWA Technology Review
×
始めるならこの春から!年間サブスク20%オフのお得な【春割】実施中
新型コロナ2万4000本以上の論文データセット、AI2などが公開
Laurence Dutton / Getty
Over 24,000 coronavirus research papers are now available in one place

新型コロナ2万4000本以上の論文データセット、AI2などが公開

新型コロナウイルス感染症(COVID-19)と戦う科学者を支援するため、関連する2万4000本以上の論文をまとめたデータセットが公開された。 by Karen Hao2020.03.18

複数の組織を横断して協力する研究者たちが、「CORD-19(COVID-19オープン・リサーチ・データセット)」を3月16日、公開した。査読済論文を掲載する学術誌と、バイオアーカイブ(bioRxiv)やメドアーカイブ(medRxiv)といったプレプリント(査読前論文)を投稿できるWebサイトなどを情報源とする、2万4000本以上の論文が含まれたデータセットだ(日本版編注:2万4000本はメタ情報。全文1万3000本以上)。新型コロナウイルス(SARS-CoV-2)や新型コロナウイルス感染症(COVID-19)、コロナウイルス属に関する研究を対象とする。現在進行中のパンデミック(世界的な流行)に関する科学文献を集めたものとして最大規模を誇り、新たな研究が発表されれば随時更新される。

同データセットは、米国科学技術政策局(Office of Science and Technology Policy:OSTP)の要請で3つの組織が協力してまとめた。米国立衛生研究所(National Institutes of Health:NIH)の国立医学図書館(National Library of Medicine:NLM)が既存の科学出版物へのアクセスを提供し、マイクロソフトは自社の文献キュレーション・アルゴリズムを使って文献を収集。非営利のアレン人工知能研究所(AI2)が、WebページやPDFの関連記事を、アルゴリズムで処理できる構造化された形式に変換した。同データセットは現在、AI2のWebサイト「セマンティック・スカラー(Semantic Scholar)」で利用可能だ。

AI2のセマンティック・スカラー・サービスは科学コミュニティが学術文献を簡単に検索できるようにするサービスである。AI2は同サービスの一環としてすでに、すべての新たな研究に適用しているものと同じ情報抽出・分析の手法でCORD-19の新たなコーパスを処理している。論文の著者や研究手法、データ、抜粋といった主な情報を抽出し、それぞれの論文が既存の研究に追加している部分をすばやく判断できるようにしている。

またセマンティック・スカラーは「エルモ(ELMo)」や「バート(BERT)」といった最新の自然言語モデルを使い、複数の論文間の類似性をマッピングする。それによって、研究者が自分の関心に基づく個人用研究フィードの作成を実現する。

科学界は今、新型コロナウイルスの拡大を防ぐため、ウイルスの性質に関する差し迫った問題に答えを出そうと寸暇を惜しんで研究に取り組んでいる。今回のデータセットは既存の研究を一か所に集めるだけでなく、自然言語処理アルゴリズムで文献の本文を検索し、知見を得やすくするのに役立つ。米国科学技術政策局はAI研究者に対し、医療コミュニティが大量の情報をすばやく検索できるようなテキストマイニングおよびデータマイニングの新手法を開発するよう広く呼びかけている。

(関連記事:新型コロナウイルス感染症に関する記事一覧

人気の記事ランキング
  1. Promotion MITTR Emerging Technology Nite #32 Plus 中国AIをテーマに、MITTR「生成AI革命4」開催のご案内
  2. AI companions are the final stage of digital addiction, and lawmakers are taking aim SNS超える中毒性、「AIコンパニオン」に安全対策求める声
  3. What is vibe coding, exactly? バイブコーディングとは何か? AIに「委ねる」プログラミング新手法
  4. Tariffs are bad news for batteries トランプ関税で米電池産業に大打撃、主要部品の大半は中国製
カーレン・ハオ [Karen Hao]米国版 寄稿者
受賞歴のあるフリー・ジャーナリスト。人工知能が社会に与える影響について取材している。ウォール・ストリート・ジャーナル紙の海外特派員として中国のテクノロジー業界を担当。2022年4月まではMITテクノロジーレビューのAI担当上級編集者を務めた。
▼Promotion
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る