/ja/files/pc_resou_main_jp.jpg/@@images/image
AIを活用し化学反応の理解を自動化する仕組みを開発

AIを活用し化学反応の理解を自動化する仕組みを開発

深層学習による反応機構の解明をより容易に

2025-3-14工学系
基礎工学研究科准教授金 鋼

研究成果のポイント

  • 化学反応の成否を決める遷移状態の予測に深層学習は有効だが、深層学習モデルの構築自体が非常に煩雑なため適用範囲が限られていた
  • 深層学習モデル作成の自動化に成功し、多数の溶媒分子存在下での反応でも遷移状態を効率よく予測することに成功
  • 酵素反応など複雑な化学反応の解明への人工知能の応用、深層学習による物性予測・分子設計理論の深化に期待

概要

化学反応の反応物と生成物を隔てる遷移状態は、反応の成否を決める重要な状態です。遷移状態の予測は反応制御に向けて重要ですが、多数の原子・多くの構造の候補から遷移状態を正確に予測することは難しいとされてきました。近年、AIを活用した遷移状態予測が盛んになっており、中でも深層学習は画像認識をはじめ多くの成功を収めている強力な手法であるものの、深層学習モデルの形(ノード数などのアーキテクチャ)を決めるのが煩雑であり、化学反応への適用の大きな障害となっています。

今回、九州大学、大阪大学および分子科学研究所の共同研究グループは、深層学習モデルを自動的に決定し、化学反応の遷移状態の予測を実現する方法を開発しました。さらに、適切に設計された深層学習モデルは、アーキテクチャによらず遷移状態の特徴を正しく捉えられることを世界で初めて明らかにしました。

九州大学先導物質化学研究所の川島恭平助教、佐藤拓海氏(総合理工学府・博士前期課程修了)、森俊文准教授は、大阪大学大学院基礎工学研究科の金鋼准教授、松林伸幸教授、分子科学研究所/総合研究大学院大学の岡崎圭一准教授とともに、化学反応の遷移状態を予測する深層学習を自動的に構築する手法を開発し、これを用いて多数の原子が存在する系でも遷移状態を適切に予測できることを示しました。さらに、様々な深層学習モデルを調べることで、モデルの形が異なっても、得られる遷移状態の特徴は変わらないことを明らかにしました。

今回の発見は、深層学習による広範な化学反応の遷移状態予測の実現に重要な一歩であり、AIを用いた化学反応の設計や、深層学習を用いた様々な課題解決の効率化に貢献できることが期待されます。

本研究成果は、米国物理学協会が発行するAPL Machine Learning誌に2025年3月14日(金)午前2時30分(日本時間)に掲載されます。また、特に注目すべき論文として、Editor’s Pickにも選ばれました。

20250314_2_1.png

図1. (上)深層学習モデルの概要。入力変数と出力変数をつなぐ中間層の数、各層におけるノード(丸)の数などを事前に指定する必要がある。(中央)ハイパーパラメータの自動探索過程。ベイズ最適化によって層の数、各層のノードの数などを調整する。(下)最適化した深層学習モデルを用いて予測した水中での反応の遷移状態構造。多数の原子が関与する反応であっても遷移状態を適切に予測できることを明らかにした。

研究の背景

化学反応は反応前の反応物から反応後の生成物へと至る過程で遷移状態と呼ばれる活性化状態を経由します。遷移状態は反応の成否を決定する重要な状態ですが、エネルギー的に不安定な過渡的状態であり、特に溶媒など多数の原子・分子が存在する中での遷移状態を見つけるのは容易ではありません。また、遷移状態は、化学反応に限らずタンパク質の折りたたみなどの状態間の遷移過程を理解する上でも重要です。そのため、考えられる多数の構造の中から遷移状態を発見・予測することは、重要な課題です。

近年、機械学習を用いて遷移状態を見つける手法の開発が盛んに行われており、我々もこれまでに深層学習を用いた方法を提案しています。特に、深層学習は画像・音声認識から自動翻訳・自動運転など様々な分野で画期的な成果が得られている強力な手法です。深層学習ではハイパーパラメータと呼ばれる多数のパラメータを変えることで多様なモデルを構築し、高い性能を発揮できます。ところが、ハイパーパラメータは事前に決める必要があり、この選択作業を行うのに膨大な作業時間が必要であるという課題がありました。さらに、ハイパーパラメータに深層学習モデルの精度がどの程度依存するのかについても明らかでなく、これまで遷移状態予測への深層学習の適用する障壁となっていました。

研究の内容

今回の共同研究グループは、深層学習の煩雑なハイパーパラメータ決定プロセスを自動化する方法を開発し、これを化学反応のシミュレーション解析へと展開することで、多数の溶媒分子を含む環境下での反応であっても遷移状態の予測ができることを実証しました。

 研究ではまず、分子動力学シミュレーションと呼ばれるコンピュータシミュレーションによって、ポリペプチド鎖の異性化反応過程に沿った分子構造を多数収集します。また、これらの構造から生成物へと到達できる「確率」をシミュレーションによってそれぞれ求めます。次に、分子の座標を入力変数、生成物へと到達する確率を出力変数として、両者の関係を学習する深層学習モデルを構築することを目指します(図1上)。

従来は、ここで深層学習モデルのハイパーパラメータを指定する必要がありますが、今回我々は、ベイズ最適化と呼ばれる最適化手法を用いて、最適なハイパーパラメータを自動的に決定する方法を開発しました(図1中央)。これにより、遷移状態へと到達する確率を一番よく再現できる深層学習モデルの自動決定を実現しました。

この手法によりポリペプチド鎖の異性化反応の遷移状態を予測する深層学習モデルを求めたところ、初期条件の違いにより、ハイパーパラメータの異なる様々な深層学習モデルが同程度の精度で得られました。これらの深層学習モデルの違いを調べるために、「説明可能なAI」と呼ばれる人工知能の技術を活用して、どのような入力変数(分子構造座標)が反応の成否の決定に寄与しているかを特定しました。その結果、深層学習モデルの形は異なっても、重要となる入力変数は変わらないことが明らかになりました。これにより、深層学習を用いた異性化反応のメカニズムの理解と遷移状態の予測に成功しました。

さらに、これを溶媒として水分子が多数存在する環境下での異性化反応へと適用したところ、これまでほとんど成功例がなかった溶媒存在下での反応座標の決定にも成功しました(図1下)。

今後の展開

本研究成果は、深層学習の煩雑なモデル作成を自動化することで、複雑な系での化学反応であっても遷移状態を予測できることを実証した例になります。遷移状態の予測は、化学反応の選択性・効率の向上や新規反応の設計に直結します。また、酵素反応や生体分子の機能発現など、より複雑な状態変化のメカニズム解明にも応用できます。さらに、深層学習は化学反応に限らず広範な利用が期待でき、今回の研究成果を応用すれば、深層学習を用いた物性予測・分子設計理論の深化や、機械学習を用いた様々な課題解決の効率化に貢献できることが期待されます。

特記事項

【論文情報】
掲載誌:APL Machine Learning
タイトル:Investigating the hyperparameter space of deep neural network models for reaction coordinates
著者名:Kyohei Kawashima, Takumi Sato, Kei-ichi Okazaki, Kang Kim, Nobuyuki Matubayasi, Toshifumi Mori
DOI:10.1063/5.0252631

本研究はJSPS科研費 (JP22H02035, JP23K23303, JP23KK0254, JP24K21756, JP22H02595, JP22K03550, JP23H02622, JP23K23858, JP23K27313, JP24H01719)の助成を受けたものです。また、本研究のコンピュータシミュレーションには、自然科学研究機構岡崎共通研究施設・計算科学研究センター(23-IMS-C111, 24-IMS-C051, 24-IMS-C105, 24-IMS-C198)と筑波大学計算科学研究センターのスーパーコンピュータを用いました。

用語説明

遷移状態

化学反応において反応物から生成物へ遷移する過程の途中にある不安定な活性化状態のことを言う。遷移状態理論においてはポテンシャルエネルギー曲面の鞍点に相当する。

深層学習

生物のシナプス結合による神経回路網を模した機械学習モデルを人工ニューラルネットワークと言う。さらに、入力層と出力層のあいだに多数の中間層を用意し、データに含まれる特徴を各層に学習させるモデルのことを深層学習もしくはディープラーニングと言う。

ハイパーパラメータ

深層学習モデルの層の数、各層に存在する変数の数など、深層学習モデルの形を決める変数群であり、深層学習を行う際に、事前に決めておく必要がある変数のことを言う。これに対して、深層学習モデルが学習過程で最適化を行う重みを単にパラメータと呼び、ハイパーパラメータと区別される。

ポリペプチド鎖

アミノ酸は重合しポリペプチド鎖を形成し、タンパク質の1次構造となる配列を構成する。ポリペプチド鎖には、立体障害によって主鎖二面角の取りうる範囲が決まっている。ポリペプチド鎖の主鎖二面角に関する異性化反応の遷移状態を知ることはタンパク質折り畳みの理解につながる基本的課題である。

説明可能なAI

深層学習の発展により高度な画像、テキスト、音声認識ができるようになったが、深層学習はブラックボックス型の学習モデルであり、なぜ内部でそのように予測したのか理解しにくいのが課題である。そこで学習結果に説明性を与える「説明可能な人工知能 (Explainable AI: XAI)」の技術が注目を浴びている。本研究では、XAI のうち局所的な説明性を与える LIME(Local Interpretable Model-agnostic Explanations)とSHAP(SHapley Additive exPlanations)の2種類の手法を用いて遷移状態を予測したデータに対する入力変数の寄与率を定量化した。