メタ、材料科学向けの最大規模のデータセットとAIモデルを無償公開

The race to find new materials with AI needs more data. Meta is giving massive amounts away for free. メタ、材料科学向けの最大規模のデータセットとAIモデルを無償公開

メタは、材料科学において最大規模のデータセットとAIモデル「オープン・マテリアルズ2024」を無償で公開した。材料科学分野の大規模データセットが公開されるのは異例で、新材料の発見につながる研究が加速しそうだ。 by Melissa Heikkilä2024.10.23

メタ(Meta)は、新材料の発見を支援する科学者向けの大規模データセットとモデル「オープン・マテリアルズ2024(Open Materials 2024、OMat24)」を公開した。OMat24は、材料の発見プロセスにおける最大のボトルネックの1つである「データ」の問題に対処するものだ。

新材料を発見するために、科学者たちは周期表に記載された元素の特性を計算し、コンピューター上でさまざまな組み合わせをシミュレーションしている。この作業はたとえば、より優れた電池の製造や新しい持続可能な燃料の開発など、気候変動の緩和に寄与する特性を備えた材料の発見につながる可能性がある。

だが、こうした作業には大規模なデータセットが必要とされる一方で、これらのデータセットは入手困難なものでもある。データセットの作成には大量の計算能力が必要で、多額の費用が必要だ。また、現存する主要なデータセットとモデルの多くは公開されておらず、研究者が自由に利用できるものではない。メタが支援を目指しているのが、この部分だ。同社は、新たなデータセットとモデルを10月18日に無償で公開し、オープンソースとして提供する。このデータセットモデルはハギング・フェイス(Hugging Face)から自由にダウンロードでき、編集・利用が可能だ。

「材料科学コミュニティに貢献し、オープンソースのデータモデルを基盤とすることで、コミュニティ全体がさらに早く前進できると私たちは確信しています」。OMatプロジェクトで主任研究者を務めるラリー・ジトニックはこう語る。

ジトニックは、この新しいOMat24のモデルは、材料科学における最高の機械学習モデルをランク付けする「マットベンチ・ディスカバリー(Matbench Discovery)」のリーダーボードでトップに立つだろうと話す。OMat24のデータセットも、現在利用可能なものの中で最大規模になるという。

「材料科学は機械学習革命を迎えています」。カリフォルニア大学サンディエゴ校のシュエ・ピン・オン教授(ナノエンジニアリング)はこう話す(同教授はこのプロジェクトには関与していない)。

「これまで科学者は、ごく小規模なシステムで材料特性の正確な計算をするか、非常に大規模なシステムでそれほど正確ではない計算をするかしかできませんでした」(オン教授)。このプロセスは多くの時間と労力を要し、費用もかかる。「機械学習がそのギャップを埋め、AIモデルによって、科学者たちは周期表のあらゆる元素の組み合わせのシミュレーションを、はるかに迅速かつ安価に実行できるようになったのです」(オン教授)。

データセットを公開するというメタの方針は、AIモデル自体を公開することよりも意義深い。そう指摘するのは、ケンブリッジ大学のガボル・ツァニ教授(分子モデリング)である(同教授はメタの取り組みには関与していない)。

「グーグルやマイクロソフトといった他の業界大手プレーヤーとはまったく対照的です。両社とも最近、同様に大規模ではあるものの非公開のデータセットで訓練した競合モデルを公開しています」(ツァニ教授)。

OMat24のデータセット構築にあたり、メタは既存の「アレキサンドリア(Alexandria)」というデータセットを使い、そこから材料をサンプリングした。その後、さまざまな原子のさまざまなシミュレーションと計算を実行して、データセットをスケールアップした。メタのデータセットに含まれる約1億1000万のデータポイント数は、従来のデータセットを大幅に上回る。また、他のデータセットは必ずしも高品質のデータを含むとは限らないとオン教授は話す。同教授は、メタは材料科学コミュニティの現在の取り組みを超えた規模にデータセットを構築し、高い精度を実現したと評価している。

データセットの作成には膨大な計算能力が必要であり、メタはその能力を持つ世界でも数少ない企業の1つである。メタのジトニックによると、同社の取り組みには別の動機が存在するという。スマート拡張現実(AR)メガネをより手頃な価格にするための、新材料を発見したいと考えているのだ。

オープンなデータベースの取り組みとしては、「マテリアルプロジェクト(Materials Project)」によって作成されたデータベースが挙げられる。ミネソタ大学のクリス・バーテル助教授(化学工学・材料科学)は、こうした取り組みが過去10年間で計算材料科学に変革をもたらしたと言う。

グーグルの「材料探索のためのグラフィカル・ネットワーク(GNoMe:Graphical Networks for Material Exploration)」といったツールでは、訓練用データセットの規模が大きくなるほど新材料発見の可能性が高まることが示されている、とバーテル助教授は付け加える。

「OMat24データセットの公開は、材料科学コミュニティにとってまさに贈り物であり、この分野での研究がすぐに加速することは間違いないでしょう」。