分子一滴で音声認識

分子一滴で音声認識

マテリアルから知能を引き出す!

2021-9-22自然科学系
理学研究科招へい研究員宇佐美雄生

研究成果のポイント

  • 有機分子のランダムネットワークを作製し、音声認識などの時間情報処理を高性能で実現
  • これまでニューラルネットワークの物理デバイス化において、豊富な電気化学反応を持つ有機分子は十分に活用されていなかった
  • 本研究の成果はニューラルネットワークにおける計算を有機分子ナノ材料を用いて再現したといえ、次世代の人工知能デバイスの開発に大きく寄与すると期待

概要

九州工業大学大学院生命体工学研究科の宇佐美雄生助教(大阪大学大学院理学研究科招へい研究員)、大阪大学大学院理学研究科の松本卓也教授、オランダ・Twente大学ナノテクノロジー研究所のWilfred van der Wiel教授、九州工業大学大学院生命体工学研究科・ニューロモルフィックAIハードウェア研究センター長の田中啓文教授らの研究グループは、溶液を滴下するだけの簡便な手法で導電性高分子の一種である水溶性ポリアニリン(SPAN)のランダムネットワークを作製し、湿気のある環境下で酸化還元現象に由来するヒステリシス電気特性の電気化学反応が現れることを明らかにしました。また、ニューラルネットワークの一種である物理リザバー計算をSPANのネットワークで動作させることで0から9までの音声認識を実現し(図1)、超低消費電力計算やAIロボットへの組み込みなど、次世代の人工知能システムを構成するデバイスとして期待できることを示しました。

これまで人間の脳の構成要素をまねたニューラルネットワークのデバイス開発において、豊富な電気化学反応を持つ有機分子は十分に活用されていませんでした。本研究の成果は、ニューラルネットワークの計算方法を有機分子ナノ材料を用いて再現したといえ、有機分子ネットワーク自体が高密度で小型の人工知能となりうる可能性を示しており、ナノ分子科学と情報科学にまたがる新しい学際的な学術分野の開拓に大きく寄与すると期待されます。

本研究成果は2021年9月17日(金)(日本時間)にドイツ科学誌「Advanced Materials (Wiley)」にオンライン掲載されました。

20210922_1_fig1.png

図1. 水溶性ポリアニリンネットワークを用いた音声認識

研究の背景

近年、人工知能は目覚ましい進歩を遂げており、基礎研究から産業応用に至る広い分野で活用されています。第3次人工知能ブームとも言われるこの潮流の根幹となる技術が、脳の構成要素を単純化したモデルであるニューラルネットワークを用いた学習システムです。このシステムは主に既存のコンピュータ上でプログラムによって制御される「ソフトウェア」として動作しています。しかしながらこれらのシステムを用いて高性能の情報処理を行うためには、大規模なネットワークをソフトウェア上に構築する必要があるため、消費電力量が増大してしまう問題が発生しています。

一方、材料・デバイス工学の分野においては、物質や電子回路、光素子など計算機となりうる構成要素を組み合わせることで、ニューラルネットワークにおける計算の仕組みを脳型回路やデバイスに組み込み、省電力で情報処理を行わせる試み(ハードウェア化)が検討されています。既存のデバイスや回路の組み合わせではこのような新しい枠組みに適さず、省電力で情報処理を行うことができません。その中で最も注目を集めているのが、物理リザバー計算です。物理リザバー計算では従来のニューラルネットワークのように計算処理を層ごとに行わず、デバイスの持つ物理特性を用いて計算を行うため、ソフトロボット、レーザー、量子ドット、ナノ材料など、様々な物理系を適用することができます。しかしながら、これまで物理リザバー計算で検討されてきた候補は大規模なものが多く、AIロボットやスマートフォンなどのデバイスの応用先への組み込みが難しいという課題がありました。

研究の内容

本研究では、SPAN水溶液を滴下、乾燥させるだけの簡便な方法により、高密度かつランダムなナノ材料ネットワークを作製しました。(図2a)このネットワークを図1に示す多電極間に形成させデバイスを作製し、電流ー電圧特性を調べたところ、湿度の上昇に伴い電流値が上昇し、ヒステリシスな電気特性が得られることを発見しました。(図2b)この結果は、大気中の湿気の影響でSPANの酸化還元反応が促進されたためと考えられます。さらに入出力間の応答の関係性を調べたところ、出力電極を変えることで応答性が変化することが明らかとなりました。(図2c)この結果は、電極とネットワークの界面における電気化学反応やネットワークの電荷輸送経路が電極ごとに異なるためと考えられます。

上記のような出力応答の違いを利用して上手く足し合わせ、物理リザバー計算を行うことで、目的に応じた学習結果を得ることが可能です。図3aはSPANネットワークを用いて物理リザバーとして音声認識を行わせる方法を示しています。SPANネットワークの内部を音声信号が走りまわることで、電極ごとに信号の形が異なる音声を得ることができます。それらを足し合わせて各出力信号に共通する”one”という情報を取り出すことで、SPANネットワークを使って音声認識を行うことができるのです。図3bは、0から9までの数字音声の分類結果を混同行列と呼ばれる表にまとめたもので、対角の色が濃くなるほど正答率が高くなります。ここでは7割近くの音声を正しく分類することができました。以上の結果から、SPANネットワークを物理リザバー計算に用いて、時間情報処理を実現しました。

20210922_1_fig2.png

図2. a. SPANネットワークのAFM像。 b. 電流ー電圧特性。 c. 入力電圧と出力電圧の関係。

20210922_1_fig3.png

図3. a. SPANネットワークを用いた物理リザバーによる音声認識の原理。
赤矢印のようにネットワーク内を信号が走り回った結果の出力を足し合わせて認識する。b. 数字音声認識の結果。表中の数字は分子が聞き取った数字の割合を各数字ごとに示す。

本研究成果が社会に与える影響(本研究成果の意義)

本研究の意義は、有機分子ネットワークの電気化学反応を用いて情報処理を実現したことです。生物の脳においても、神経回路で有機分子のネットワークが形成されており、電気化学反応を用いて信号伝達が行われています。本研究成果によって、低消費電力かつ自律して動作する脳の機能を獲得した次世代デバイスの創製およびAIシステムへの実装が期待されます。

特記事項

本研究成果は、2021年9月17日(金)(日本時間)にドイツ科学誌「Advanced Materials (Wiley)」にオンライン掲載されました。

タイトル:“In-materio reservoir computing in a sulfonated polyaniline network”
著者名:Yuki Usami, Bram van de Ven, Dilu G. Mathew, Tao Chen, Takumi Kotooka, Yuya Kawashima, Yuichiro Tanaka, Yoichi Otsuka, Hiroshi Ohoyama, Hakaru Tamukoh,
Hirofumi Tanaka, Wilfred G. van der Wiel, Takuya Matsumoto
DOI:https://doi.org/10.1002/adma.202102688

なお、本研究は、日本学術振興会 科学研究費助成事業 No. JP25110014, JP24360011, JP16K13667, JP15K12109, JP18H01872, JP19KK0131, JP19K22114, JP19H02559, JP20K21819, JP20K22485, JP21K14527、文部科学省「ナノテクノロジープラットフォーム事業」の協力を得て行われました。

参考URL

大阪大学 大学院理学研究科 化学専攻 反応物理科学研究室(松本研究室)URL
http://nanochem.jp/

用語説明

有機分子

原子の構成要素に炭素を含み、2種類以上の原子から構成される物質。

音声認識

人間の声などの発話された信号情報から、音声の意味をとらえて文字に変換したり、音声の特徴から発話した人物の性別、年齢、感情等を判別する処理。

ニューラルネットワーク

脳の構成要素である神経細胞とそれらをつなぐシナプスを単純化したモデル。一般的に複数の層を持つ。音声などの情報を入力すると、入力情報をもとに計算を層ごとに逐次行い、最終結果が算出される。近年注目されているディープラーニングはニューラルネットワークの一種であり、計算を行う層を増やして多層化したものである。

電気化学反応

電気化学とは物質の化学変化と電気的な現象の関係を検討する化学の学問分野の一つである。電気化学反応とは化学反応で生じるエネルギーを電気エネルギーに変換する反応のことである。電池や電気分解などの反応が該当する。

導電性高分子

電気伝導性の高い高分子の総称。一般的には「電気を通すプラスチック」として知られている。導電性高分子を世界で初めて発見したのは日本の白川英樹博士であり、この業績により2000年にノーベル化学賞を受賞した。

ヒステリシス電気特性

ヒステリシスとは物質の状態が、現在だけでなく過去に受けてきた状態変化の影響を受ける現象のこと。電気特性の場合、同じ電圧値が物質に与えられても掃引方向によって電流値が大きく異なる現象をさす。

物理リザバー計算

最近注目を集めているニューラルネットワークの一種。リザバーは「ため池」という意味である。入力層、中間層、出力層の3層で構成されている。中間層では入力の時間情報を異なる時間情報へと変換する役割を担い、計算は中間層と出力層の間でのみ行う。中間層は計算過程で変化させず固定であり、コンピュータ上のプログラムで緻密に制御する必要がない。そのため、物質、光、スピン、ロボットなど入力信号を非線形変換できる物理系を用いてリザバー計算が実現できる。物理系を中間層に用いるリザバー計算は「物理リザバー計算」と総称されている。