成果概要
人と融和して知の創造・越境をするAIロボット[1] 仮説生成・検証AI
2024年度までの進捗状況
1. 概要
この研究プロジェクトでは、研究におけるループを主張→実験→解析→記述&対話→主張…というループでモデル化しています。その中でも仮説の生成と検証を含む主張と解析のステップでは、マルチモーダルな科学データを理解し、そのうえで仮説を新規に生成しつつ、自動合成実験AIが実施した実験結果が仮説と適合しているかを検証できるAIが必要になります。
そこで仮説生成・検証AIとしてまず「マルチモーダルXAI基盤モデル」を開発して科学データをAIに理解させ、「科学知識の空間埋め込みとアブダクションによる仮説生成モデリング」によって仮説生成の機能を実現します。仮説生成時に人間の科学者のフィードバックから「仮説インスピレーションAI」を開発するとともに、実験結果から「実験予想と結果のXOR発見AI」によって仮説を検証できる体制を整えます。これらはエージェントAIとして「知識推論と対話を用いたマルチモーダル仮説生成」が開発するインタラクティブな仮説生成AIと相互作用し、仮説生成と検証を実現します。
2. これまでの主な成果
2023年度のマイルストーンである「AIロボットが、文献を用いた知識探求を通じて既存論文に記載されている研究を相互理解できる」ことを示したのちに、2024年度はそれらの深化だけでなく、新たな研究としてAIによる仮説生成の実現に取り組みました。結果として、情報学や化学といった複数分野での仮説生成を実証することができました。
(1)マルチモーダルXAI基盤モデル
マルチモーダル論文理解XAIを仮想評価者として活用し、高評価が期待される仮説と実証方法を生成するモデルを構築しました。基盤モデルの課題解決に取り組み、クロスオーバー手法による仮説生成技術を開発しました。化学分野で初期仮説39分子から仮想合成、自動有機合成、活性検査、新規分子生成までのサイバー&フィジカルループを実現しました。
(2)科学知識の空間埋め込みとアブダクションによる仮説生成モデリング
大規模言語モデルを活用して科学技術文献の知識を連続ベクトル空間に埋め込み、新規かつ妥当性のある科学的仮説の自動生成を目指しています。ベースラインシステムの構築に着手し、RAGコンポーネントによる文脈に応じた分子候補生成を実現しました。チャットボット形式での対話的仮説生成や研究トレンド可視化ツールも開発しました。
(3)仮説インスピレーションAI
基盤モデルと化学研究者のシームレスな協働環境整備に取り組みました。Slack上でSMILES記法を自動検出して分子構造画像を表示し、化合物エディタとの統合により研究者の意図を基盤モデルにフィードバックできるシステムを開発しました。また、UU Learningによる少量の研究者判断から擬似ラベルを生成し、基盤モデルの追加微調整に活用する手法を提案し有効性を確認しました。
(4)実験予想と結果のXOR発見AI
実験計画時の予想結果と実際の結果のXORを発見し新たな仮説創出の素となるAIの構築に取り組みました。ChemRxivから2万本超の論文を収集して新規にデータセットを構築し、エンコーダーベースとデコーダーベースの2つの言語モデルによる仮説検証AIを開発し、95%以上の精度を達成しました。また、判定根拠の可視化機能も実装しました。
(5)知識推論と対話を用いたマルチモーダル仮説生成
大規模言語モデルを用いた論文理解枠組みの構築に取り組みました。特許庁データベースからfine-tuning用データを整備し、特許請求項の自動書換えモデルを開発しました。Promptingによる仮説生成テイミングAIを構築し、他チームと連携して仮説の尤もらしさを評価できるシステムを実現しました。また、因果関係データの蒸留や量子機械学習の活用も検討しました。
3. 今後の展開
2023年に本研究開発プロジェクトが始まった時点では、2025年までに文献を理解できるAIを実現し、2030年までに文献を(実験を伴って)生成できるAIを目指していました。一方で、2024年度までの成果によって、前者のマイルストーンは達成され、後者のマイルストーンにおいて最も重要である仮説生成も実現されました。
今後は、仮説生成の実現だけでなく、自動合成実験AIとも連動して、生成・検証された仮説について実験も含めたレポートを進化的に生成できるようなマルチエージェントAIシステムを確立します。このマルチエージェントAIシステムのオープンソース化や社会実装を通じて、こうしたAIロボット駆動科学の普及にも努める予定です。