研究トピック

グラフニューラルネットワークと劣モジュラ関数最大化に基づく多様な分子選択法 “SubMo-GNN” の開発

Face Photo
坂上 晋作 特任助教
所属
東京大学 大学院情報理工学系研究科
経歴・業績
Websiteへ
キーワード
分子選択 グラフニューラルネットワーク 劣モジュラ関数 貪欲法

分子は、医薬品、材料、食品など我々の社会において必要不可欠な存在であり、現在も新規分子の開拓が進められています.分子は複数の原子とその間の結合からなり、その考え得る組合せは膨大です.そのため、その膨大な可能性の中から効率的に新たな化学的知識を獲得するには、重要かつ多様な分子に着目することが大切です.本研究では、機械学習による分子の表現方法の学習と数学的知見に基づく分子の選択手法を用いて、分子の物性と構造の両方の観点で、重要かつ多様な分子たちを選択する手法を開発しました.

研究背景: 膨大な分子の世界の探索

分子は複数の原子とそれらをつなぐ結合によって構成され、それら可能な組合せの数は膨大です。創薬の場面で現れ得る分子に限っても、1060種類の分子が存在し得るという推定もあります。また、American Chemical Society のデータベース(chemical abstracts service)には、およそ7千万種類の分子が登録されています(2023年2月8日時点)。こうした膨大な種類の分子を一つ一つしらみつぶしに調べていたのでは、新たな物性を持つ分子や新反応の鍵となる分子を効率的に発見するのは困難です。

そこで、互いに似た分子を繰り返し調べるのを避けるために、与えられた膨大な分子のリストの中から、少数の重要かつ多様な分子を選ぶ手法が必要になります。多様な分子を選ぶための手法はこれまでにも提案されてきましたが、その多くは分子の構造について多様に選択するように設計されていました。一方で、新たな化学的知見の獲得を目指す上では、分子の物性にも着目して重要かつ多様な分子を選びたいという動機があります。本研究では、分子の物性と構造の両方の観点から、重要かつ多様な分子を選択する手法の開発に取り組みました。

アプローチ: 分子の表現学習と数学的知見に基づく選択手法

膨大な分子のリストの中から計算機を用いて重要かつ多様な分子を選ぶためには、まず分子を計算機上でどのように表現するかを考えなければなりません。こうした場面で近年盛んに用いられるアプローチとして、グラフニューラルネットワーク(GNN)によって分子のベクトル表現を学習するというものがあります。GNNによって得られる分子のベクトルには、分子の物性・構造の情報が上手く反映されるという傾向が観察されています。そこで、今回我々もこのアプローチを採用しました。しかし、分子たちのベクトル表現が得られても、ベクトルをいくつか選んだ結果の多様性をどのように測るかという課題が残ります。

上記の方法で得られた分子のベクトルたちは、大雑把に言うと、ベクトルの長さが重要度を表し、互いに似ていない分子ペアの2本ベクトルがなす角は大きくなります。この点を踏まえて我々は、ベクトルたちが形成する平行体の体積が大きくなるように、対応する分子を選ぶ手法を提案しました。たくさんのベクトルが与えられたときに、それらの一部を選んで平行体の体積を最大にする問題は、一般には効率的に解くことが難しいとされています。しかし、体積の対数をとった値は “劣モジュラ性” という好ましい性質を持つことが知られており、この性質を利用することで、体積を近似的に最大にするベクトルたちを貪欲法によって効率的に得ることができます。

図1. 提案手法の概略図

研究成果: 物性と構造の両面について多様な分子選択

上述の “GNNを用いた分子のベクトル表現の学習+貪欲法による体積の対数の近似的最大化” によって、与えられた膨大な数の分子のリストの中から、分子の物性・構造の両方の観点で重要かつ多様な少数の分子を選択することが可能になりました。下図は分子を選択した結果、分子の物性を表すエネルギー(HOMO)の値がどのように分布しているかを表す図です。青色のヒストグラムは与えられた分子リストの元の分布を表しており、全体として -0.25 付近の値に集中していることが分かります。赤色のヒストグラムは左から提案法、分子構造のみに着目した既存法、分子リストから一様ランダムに選ぶ手法の結果を示しています。提案法が他手法と比べて、多様なHOMOの値を持つ分子を選択できていることが分かります。

このように分子の物性についても多様な分子選択が可能になったことは、今後の化学的知識の効率的獲得に貢献し得る成果だと考えています。なお、本研究は当時学部4年生の中村僚宏さんを中心としたグループによって行われました。

図2. 選択された分子のHOMO値の分布の比較

関連論文の情報