成果概要

人と融和して知の創造・越境をするAIロボット[1] 実験自動化AIロボット

2023年度までの進捗状況

1. 概要

研究における仮説をもとに実験を着想した後に、その具体的な作業をサイバー空間で推定しつつフィジカル空間で実施するAIロボットを開発します。
具体的には、(1)過去事例から実験を計画するための「論文の実験を理解するAI」、(2)実際に自動実験を進める「有機合成を行うAIロボットの探究」、(3)その結果から仮説を検証する「実験予想と結果のXOR発見AI」の研究開発を行います。

2. これまでの主な成果

このプロジェクトでは科学技術文献を通じて人間の研究を理解するAIの実現を最初のマイルストーンに置いています。
実験自動化AIロボットとしては、まず既存の論文を研究者が追試する時の様に関連事例の論文から実験を計画し、その具体的な実験パラメータを推定して実行することが必要です。ただし論文等の文献には実験の大まかな設定が書かれているにとどまることが多いので、このプロジェクトでは、実際に実験するために別のトピックの文献などからも知識を収集したうえでの推論を試みました。
また、実験結果のグラフから結果を考察して仮説の検証を進めることが必要となります。そこでこのプロジェクトでは、論文の実験結果図に対して考察を与えるようなAIモデルを開発しています。

(1)論文の実験を理解するAI

実験内容の理解と比較のために、論文の表に記載されているタスク、データ、手法などの情報を抽出し、構造化する「表の意味解析」に取り組みました。表のテキストに関連する情報を大規模言語モデル(LLM)に入力し、合成文脈と呼ばれる補助的な説明文を生成しました。この合成文脈を機械学習モデルの特徴量として利用することで、エンティティリンキング精度が従来手法より5ポイント以上向上しました。また、引用文献のテキストも利用することで、論文自身に記述されていない補助知識を補完し、リンキング精度の向上に寄与しました。
また、材料科学文献を対象とした材料の合成手順をデータとして収集・アノテーションし、BERTに基づいた初期モデルが合成手順を推定可能であることを確認しました。

(2)有機合成を行うAI ロボットの探究

化合物を表現するために、分子の合成経路をエッジ、分子をノードとするネットワーク型データベース(Molecular Reaction Graph)を構築するとともに、“Chemputor”を簡易化した京大式自動合成装置を製作しました(図1)。実験手順の自動入力を目指し、ChatGPTを用いて実験手順文をマーメイド記法に変換し、自動生成プログラムの実現に近づきました。また実際に0.3molのエステル化・アセタール化・アミド化実験を成功させました。今後は劇物・毒物を使った実験の後処理や洗浄の問題に取り組む予定です。

図1 データベース(左)と京大式自動合成装置(右)
図1 データベース(左)と京大式自動合成装置(右)
(3)実験予想と結果のXOR発見AI

まず、論文の図を理解し、説明できるAIを構築し、研究者の知見を組み込んだ信頼性の高いAIを開発しました。既存モデルでは詳細な説明が難しいため、研究者が強調したい領域をモデルに入力する方法を検討しました。Self-Attention機構のAttention Weightを操作し、強調領域を詳細に説明するキャプションを生成しました。実験では、強調領域に関連する単語を含むキャプションが生成されることを確認しました(図2)。

図2 グラフ図と強調領域を与えた場合の生成文
図2 グラフ図と強調領域を与えた場合の生成文

3. 今後の展開

2025年度までのマイルストーンとしては、研究の理解を継続するのみならず、仮説生成の実現が掲げられております。そのためにはフィジカルの空間での実験が非常に重要になり、ここがボトルネックとならないように研究の加速が必要となります。
具体的にはまず、自動合成手段を拡充させることで、対象となる物質の探索空間を拡大します。フロー合成やメカノケミカル合成など、多様な合成手段を同時に探究します。
また、候補物質を提案する初期の仮説に対して、より合成しやすいもの・より反応が期待できるものにアップデートしながらの合成実行を取り入れることを計画しており、ここではシミュレーションも活用しながらの仮説更新を検討しております。
最後に、そうした候補物質の合成のためには、どのような順番でどのような材料を合成したらよいのかという合成経路推定や、どういった温度で合成したらよいのかなどの合成条件推定が必要となります。
このように、このプロジェクトでは実験自動化AIロボットを今後も高度化することで、研究ループの高スループット化を目指します。