KADOKAWA Technology Review
×
始めるならこの春から!年間サブスク20%オフのお得な【春割】実施中
メタ、材料科学向けの最大規模のデータセットとAIモデルを無償公開
Stephanie Arnett/MITTR | Adobe Stock
The race to find new materials with AI needs more data. Meta is giving massive amounts away for free.

メタ、材料科学向けの最大規模のデータセットとAIモデルを無償公開

メタは、材料科学において最大規模のデータセットとAIモデル「オープン・マテリアルズ2024」を無償で公開した。材料科学分野の大規模データセットが公開されるのは異例で、新材料の発見につながる研究が加速しそうだ。 by Melissa Heikkilä2024.10.23

この記事の3つのポイント
  1. メタが材料科学の発展を支援する大規模データセットとモデルを公開した
  2. データセットは1億1000万のデータポイントを含み従来のものを大幅に上回る
  3. データセットの公開により材料科学分野の研究加速が期待される
summarized by Claude 3

メタ(Meta)は、新材料の発見を支援する科学者向けの大規模データセットとモデル「オープン・マテリアルズ2024(Open Materials 2024、OMat24)」を公開した。OMat24は、材料の発見プロセスにおける最大のボトルネックの1つである「データ」の問題に対処するものだ。

新材料を発見するために、科学者たちは周期表に記載された元素の特性を計算し、コンピューター上でさまざまな組み合わせをシミュレーションしている。この作業はたとえば、より優れた電池の製造や新しい持続可能な燃料の開発など、気候変動の緩和に寄与する特性を備えた材料の発見につながる可能性がある。

だが、こうした作業には大規模なデータセットが必要とされる一方で、これらのデータセットは入手困難なものでもある。データセットの作成には大量の計算能力が必要で、多額の費用が必要だ。また、現存する主要なデータセットとモデルの多くは公開されておらず、研究者が自由に利用できるものではない。メタが支援を目指しているのが、この部分だ。同社は、新たなデータセットとモデルを10月18日に無償で公開し、オープンソースとして提供する。このデータセットモデルはハギング・フェイス(Hugging Face)から自由にダウンロードでき、編集・利用が可能だ。

「材料科学コミュニティに貢献し、オープンソースのデータモデルを基盤とすることで、コミュニティ全体がさらに早く前進できると私たちは確信しています」。OMatプロジェクトで主任研究者を務めるラリー・ジトニックはこう語る。

ジトニックは、この新しいOMat24のモデルは、材料科学における最高の機械学習モデルをランク付けする「マットベンチ・ディスカバリー(Matbench Discovery)」のリーダーボードでトップに立つだろうと話す。OMat24のデータセットも、現在利用可能なものの中で最大規模になるという。

「材料科学は機械学習革命を迎えています」。カリフォルニア大学サンディエゴ校のシュエ・ピン・オン教授(ナノエンジニアリング)はこう話す(同教授はこのプロジェクトには関与していない)。

「これまで科学者は、ごく小規模なシステムで材料特性の正確な計算をするか、非常に大規模なシステムでそれほど正確ではない計算をするかしかできませんでした」(オン教授)。このプロセスは多くの時間と労力を要し、費用もかかる。「機械学習がそのギャップを埋め、AIモデルによって、科学者たちは周期表のあらゆる元素の組み合わせのシミュレーションを、はるかに迅速かつ安価に実行できるようになったのです」(オン教授)。

データセットを公開するというメタの方針は、AIモデル自体を公開することよりも意義深い。そう指摘するのは、ケンブリッジ大学のガボル・ツァニ教授(分子モデリング)である(同教授はメタの取り組みには関与していない)。

「グーグルやマイクロソフトといった他の業界大手プレーヤーとはまったく対照的です。両社とも最近、同様に大規模ではあるものの非公開のデータセットで訓練した競合モデルを公開しています」(ツァニ教授)。

OMat24のデータセット構築にあたり、メタは既存の「アレキサンドリア(Alexandria)」というデータセットを使い、そこから材料をサンプリングした。その後、さまざまな原子のさまざまなシミュレーションと計算を実行して、データセットをスケールアップした。メタのデータセットに含まれる約1億1000万のデータポイント数は、従来のデータセットを大幅に上回る。また、他のデータセットは必ずしも高品質のデータを含むとは限らないとオン教授は話す。同教授は、メタは材料科学コミュニティの現在の取り組みを超えた規模にデータセットを構築し、高い精度を実現したと評価している。

データセットの作成には膨大な計算能力が必要であり、メタはその能力を持つ世界でも数少ない企業の1つである。メタのジトニックによると、同社の取り組みには別の動機が存在するという。スマート拡張現実(AR)メガネをより手頃な価格にするための、新材料を発見したいと考えているのだ。

オープンなデータベースの取り組みとしては、「マテリアルプロジェクト(Materials Project)」によって作成されたデータベースが挙げられる。ミネソタ大学のクリス・バーテル助教授(化学工学・材料科学)は、こうした取り組みが過去10年間で計算材料科学に変革をもたらしたと言う。

グーグルの「材料探索のためのグラフィカル・ネットワーク(GNoMe:Graphical Networks for Material Exploration)」といったツールでは、訓練用データセットの規模が大きくなるほど新材料発見の可能性が高まることが示されている、とバーテル助教授は付け加える。

「OMat24データセットの公開は、材料科学コミュニティにとってまさに贈り物であり、この分野での研究がすぐに加速することは間違いないでしょう」。

人気の記事ランキング
  1. Promotion MITTR Emerging Technology Nite #32 Plus 中国AIをテーマに、MITTR「生成AI革命4」開催のご案内
  2. AI companions are the final stage of digital addiction, and lawmakers are taking aim SNS超える中毒性、「AIコンパニオン」に安全対策求める声
  3. What is vibe coding, exactly? バイブコーディングとは何か? AIに「委ねる」プログラミング新手法
  4. Tariffs are bad news for batteries トランプ関税で米電池産業に大打撃、主要部品の大半は中国製
メリッサ・ヘイッキラ [Melissa Heikkilä]米国版 AI担当上級記者
MITテクノロジーレビューの上級記者として、人工知能とそれがどのように社会を変えていくかを取材している。MITテクノロジーレビュー入社以前は『ポリティコ(POLITICO)』でAI政策や政治関連の記事を執筆していた。英エコノミスト誌での勤務、ニュースキャスターとしての経験も持つ。2020年にフォーブス誌の「30 Under 30」(欧州メディア部門)に選出された。
▼Promotion
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る