2019年2月19日

研究のポイント

・音声対話システムにおける、会話に現れた「知らない単語(未知語)」を特定する技術において、知っている単語の発音構成パターンに基づく「音表現の単位」を用いる機構を導入した。
・自然言語処理分野の「教師なし単語分割」手法を応用しているが、音声への適用では「音表現の単位」として何が有効かは自明ではなく、未知語の特定率への影響も明らかではなかった。
・音声対話はコンピュータとのインタフェースとして最も直観的である一方、未学習の内容や想定外の事象に対して柔軟に対応することは難しい。「知らない単語」をきちんと特定することは、その単語や知識について話を通じて学ぶ音声対話システムの実現に必要な一歩である。

研究の概要

大阪大学産業科学研究所の武田龍助教らの研究グループは、音声対話システム※1で必要な、「会話に含まれる未知語※2の特定」技術において、知っている単語の発音構成パターンに基づく「音表現の単位」を用いる機構を導入しました。

近年、音声応答を行うロボットやアプリが数多く公開されていますが、基本的に事前に登録された単語のみを認識する仕組みとなっています。それ以外の単語(未知語)が発話に含まれると、知っている単語群で置き換えられるため、「単語」として正しく認識できません。もし、「知らない単語」の部分を正しく認識できれば、人に聞いてその意味を学習することができます。

本研究では、自然言語処理技術における「教師なし単語分割※3」手法に着目し、発話中の未知語の特定に応用しています。この手法では通常書き言葉が対象であるため、切り出しの単位は「文字」となります。音声へ適用する場合、「音表現の単位」として何を使うべきか、何が有効であるかは自明ではありません。その単位には、音素(発音記号)や音節(ひらがな)、その他の表現があります。

開発された手法では、「単語らしさ」を用いて計算された「発音とその構成パターンに基づく単位」を、「音表現の単位」として用いています。このパターンは、複数の単語に現れる共通の発音と出現位置から計算されており、知っている単語と近い発音構成の未知語をより特定しやすくなります。音素の認識は正しくできたと仮定の下、日本語・英語の会話コーパスで未知語の特定率を各単位で検証しています。

この成果は、開発者が事前に用意したり更新したりしたやりとりができるだけでなく、人間と話すにつれて自ら学んで次第に賢くなっていく音声対話システムの実現に必要な技術です。

図1 未知語認識処理の一例

本研究成果が社会に与える影響(本研究成果の意義)

今後、音声対話システムが世の中で使われるにつれ、話す内容や話し方など、その場その場で相手から学びながら話せることが必須となるでしょう。本研究成果は、知らない単語を相手から学ぶために不可欠な機能のひとつであり、話すたびに賢くなる音声対話システムの実現につながるものです。

研究の背景

近年、音声応答を行うロボットやアプリが数多く公開されていますが、基本的に事前に登録された単語のみを認識する仕組みとなっています。それ以外の単語(未知語)が発話に含まれると、知っている単語群で置き換えられるため、「単語」として正しく認識できません。もし、「知らない単語」の部分を正しく特定できれば、人に聞いてその意味を学習することができます。

未知語の特定を行うため、自然言語処理における「教師なし単語分割」手法を音声へ適用しています。その際、未知語特定に有効な「音表現の単位」は自明ではありません。音素や音節、既知の単語リストから計算される「発音構成パターンに基づく単位」に関して、未知語特定性能の比較を行いました。

特記事項

本研究成果は、2018年12月20日(木)13時(東ヨーロッパ時間)〔12月20日(木)20時(日本時間)〕に、音声言語理解の国際会議IEEE Workshop on SpokenLanguage Technologyで発表されました。論文はproceedingsに採録されています。

タイトル:“Word Segmentation from Phoneme Sequences based on Pitman-Yor Semi-Markov Model Exploiting Subword Information”
著者名: Ryu Takeda, Kazunori Komatani and Alexandar I. Rudnicky

本研究は、日本学術振興会(JSPS)頭脳循環プログラム「グローバル分子技術実装ネットワークの構築」の一環として行われました。

用語解説

※1 音声対話システム
人と音声を用いて話をするシステムです。音声を入力とした音声応答アプリや対話をするロボットが最近多く開発されています。

※2 未知語
音声対話システムに登録されていない単語です。標準的な音声認識の枠組みでは認識対象の単語は予め登録するため、登録されていない単語は出力されません。

※3 教師なし単語分割
文字列の文のみから単語への分割を行う方法です。本研究では自然言語処理の分野で提案された手法をベースにしています。単語分割済みの文を加えることで、より正確な分割も行えます。

参考URL

大阪大学 産業科学研究所 駒谷研究室
http://www.ei.sanken.osaka-u.ac.jp/index.html

キーワード

この組織の他の研究を見る

Tag Cloud

back to top