東京大学,科学技術振興機構(JST)

2026(令和8)年6月25日

東京大学
科学技術振興機構(JST)

化学構造の「共通ID」を開発

~材料データベース統合で探索や機械学習を加速~

ポイント

東京大学 大学院工学系研究科の中山 哲 教授と、村岡 恒輝 准教授らによる研究チームは、世界中に分散する膨大な材料データベースの統合を可能にする画期的な識別子「Graph ID」を開発しました。本研究成果は、蓄電池、触媒、半導体などの新材料探索において、世界規模でのデータ統合と重複排除を可能にし、開発スピードを劇的に向上させることが期待されます。

近年、ハイスループット計算技術の普及により、未知の材料を含む膨大な構造データが日々生成されています。これらのデータは「Materials Project」や「AFLOW」といった国際的なデータベースに蓄積されていますが、それぞれが独自の管理体系を持っているため、「あるデータベースに登録された材料が、別のデータベースのどの材料と同じか」を即座に判断することは困難でした。

これに対し、従来は専門家による手作業での命名が行われてきましたが、数百万件を超えるビッグデータを処理することは現実的に不可能です。また、既存の自動命名手法では、数値的な誤差や座標系の取り方の違いにより、同一の構造を別物と判定したり、逆に似て非なる構造を混同してしまったりという問題がありました。

本研究チームが開発した「Graph ID」は、化学構造を数学的なグラフとして捉えることで、これらの問題を解決しました。Graph IDでは各原子の周囲の環境を反復的に解析し、その構造固有の「指紋」となるハッシュ文字列を生成します。

検証の結果、Graph IDは、高い精度、高速性、汎用(はんよう)性という優れた特性を示しました。従来の対称性に基づく手法では判別が難しかった、複雑な結晶構造や吸着分子を含む表面構造も正確に識別可能です。また、データベース内の新規構造の照合にかかる計算コストはごく小さく、従来のペア比較法に比べて大幅な高速化を実現しました。本成果は、結晶に限らず、分子や表面構造など、幅広い化学構造に適用可能です。

さらに、Graph IDを用いて世界最大級の3つの材料データベース(Materials Project、AFLOW、OQMD)を統合的に解析し、異なるデータベース間で共通している材料を特定することに成功しました。これにより、複数のデータベースを横断した統合データセットを構築することが可能となりました。

研究チームは、本技術を科学コミュニティーの共通基盤とするため、Graph IDを生成するプログラムコードをオープンソースとして公開しました。また、15万件以上の既知構造にIDを付与したデータベースも併せて公開しています。今後、この共通IDが「材料のマイナンバー」のように普及することで、AIを用いた新材料予測や、世界中の研究者が知見を共有するプラットフォームの構築が加速すると期待されます。

本成果は、2026年6月25日(英国夏時間)付で「Nature Communications」に掲載されました。

本研究は、科学技術振興機構(JST) 戦略的創造研究推進事業 さきがけ(課題番号:JPMJPR2378)、日本学術振興会(JSPS) 科研費(課題番号:JP21K20551、JP22K14751)の支援により実施されました。

<プレスリリース資料>

<論文タイトル>

“Universal graph-based identifiers of chemical structures for linking large material databases”
DOI:10.1038/s41467-026-74536-5

<お問い合わせ>

前に戻る