メタ、材料科学向けの最大規模のデータセットとAIモデルを無償公開
メタは、材料科学において最大規模のデータセットとAIモデル「オープン・マテリアルズ2024」を無償で公開した。材料科学分野の大規模データセットが公開されるのは異例で、新材料の発見につながる研究が加速しそうだ。 by Melissa Heikkilä2024.10.23
- この記事の3つのポイント
-
- メタが材料科学の発展を支援する大規模データセットとモデルを公開した
- データセットは1億1000万のデータポイントを含み従来のものを大幅に上回る
- データセットの公開により材料科学分野の研究加速が期待される
メタ(Meta)は、新材料の発見を支援する科学者向けの大規模データセットとモデル「オープン・マテリアルズ2024(Open Materials 2024、OMat24)」を公開した。OMat24は、材料の発見プロセスにおける最大のボトルネックの1つである「データ」の問題に対処するものだ。
新材料を発見するために、科学者たちは周期表に記載された元素の特性を計算し、コンピューター上でさまざまな組み合わせをシミュレーションしている。この作業はたとえば、より優れた電池の製造や新しい持続可能な燃料の開発など、気候変動の緩和に寄与する特性を備えた材料の発見につながる可能性がある。
だが、こうした作業には大規模なデータセットが必要とされる一方で、これらのデータセットは入手困難なものでもある。データセットの作成には大量の計算能力が必要で、多額の費用が必要だ。また、現存する主要なデータセットとモデルの多くは公開されておらず、研究者が自由に利用できるものではない。メタが支援を目指しているのが、この部分だ。同社は、新たなデータセットとモデルを10月18日に無償で公開し、オープンソースとして提供する。このデータセットとモデルはハギング・フェイス(Hugging Face)から自由にダウンロードでき、編集・利用が可能だ。
「材料科学コミュニティに貢献し、オープンソースのデータモデルを基盤とすることで、コミュニティ全体がさらに早く前進できると私たちは確信しています」。OMatプロジェクトで主任研究者を務めるラリー・ジトニックはこう語る。
ジトニックは、この新しいOMat24のモデルは、材料科学における最高の機械学習モデルをランク付けする「マットベンチ・ディスカバリー(Matbench Discovery)」のリーダーボードでトップに立つだろうと話す。OMat24のデータセットも、現在利用可能なものの中で最大規模になるという。
「材料科学は機械学習革命を迎えています」。カリフォルニア大学サンディエゴ校のシュエ・ピン・オン教授(ナノエンジニアリング)はこう話す(同教授はこのプロジェクトには関与していない)。
「これまで科学者は、ごく小規模なシステムで材料特性の正確な計算をするか、非常に大規模なシステムでそれほど正確ではない計算をするかしかできませんでした」(オン教授)。このプロセスは多くの時間と労力を要し、費用もかかる。「機械学習がそのギャップを埋め、AIモデルによって、科学者たちは周期表のあらゆる元素の組み合わせのシミュレーションを、はるかに迅速かつ安価に実行できるようになったのです」(オン教授)。
データセットを公開するというメタの方針は、AIモデル自体を公開することよりも意義深い。そう指摘するのは、ケンブリッジ大学のガボル・ツァニ教授(分子モデリング)である(同教授はメタの取り組みには関与していない)。
「グーグルやマイクロソフトといった他の業界大手プレーヤーとはまったく対照的です。両社とも最近、同様に大規模ではあるものの非公開のデータセットで訓練した競合モデルを公開しています」(ツァニ教授)。
OMat24のデータセット構築にあたり、メタは既存の「アレキサンドリア(Alexandria)」というデータセットを使い、そこから材料をサンプリングした。その後、さまざまな原子のさまざまなシミュレーションと計算を実行して、データセットをスケールアップした。メタのデータセットに含まれる約1億1000万のデータポイント数は、従来のデータセットを大幅に上回る。また、他のデータセットは必ずしも高品質のデータを含むとは限らないとオン教授は話す。同教授は、メタは材料科学コミュニティの現在の取り組みを超えた規模にデータセットを構築し、高い精度を実現したと評価している。
データセットの作成には膨大な計算能力が必要であり、メタはその能力を持つ世界でも数少ない企業の1つである。メタのジトニックによると、同社の取り組みには別の動機が存在するという。スマート拡張現実(AR)メガネをより手頃な価格にするための、新材料を発見したいと考えているのだ。
オープンなデータベースの取り組みとしては、「マテリアルプロジェクト(Materials Project)」によって作成されたデータベースが挙げられる。ミネソタ大学のクリス・バーテル助教授(化学工学・材料科学)は、こうした取り組みが過去10年間で計算材料科学に変革をもたらしたと言う。
グーグルの「材料探索のためのグラフィカル・ネットワーク(GNoMe:Graphical Networks for Material Exploration)」といったツールでは、訓練用データセットの規模が大きくなるほど新材料発見の可能性が高まることが示されている、とバーテル助教授は付け加える。
「OMat24データセットの公開は、材料科学コミュニティにとってまさに贈り物であり、この分野での研究がすぐに加速することは間違いないでしょう」。
- 人気の記事ランキング
-
- Bringing the lofty ideas of pure math down to earth 崇高な理念を現実へ、 物理学者が学び直して感じた 「数学」を学ぶ意義
- Promotion Innovators Under 35 Japan × CROSS U 無料イベント「U35イノベーターと考える研究者のキャリア戦略」のご案内
- The 8 worst technology failures of 2024 MITTRが選ぶ、 2024年に「やらかした」 テクノロジー8選
- Google’s new Project Astra could be generative AI’s killer app 世界を驚かせたグーグルの「アストラ」、生成AIのキラーアプリとなるか
- AI’s search for more energy is growing more urgent 生成AIの隠れた代償、激増するデータセンターの環境負荷
- メリッサ・ヘイッキラ [Melissa Heikkilä]米国版 AI担当上級記者
- MITテクノロジーレビューの上級記者として、人工知能とそれがどのように社会を変えていくかを取材している。MITテクノロジーレビュー入社以前は『ポリティコ(POLITICO)』でAI政策や政治関連の記事を執筆していた。英エコノミスト誌での勤務、ニュースキャスターとしての経験も持つ。2020年にフォーブス誌の「30 Under 30」(欧州メディア部門)に選出された。