AI読唇アプリで声を失った方の声を再生

AI読唇アプリで声を失った方の声を再生

病気で声を失った患者さんと家族の術後QOL改善へ

2024-10-15
情報科学研究科教授三浦典之

研究成果のポイント

  • スマートフォンなどのカメラで撮影した口元の動画から発話内容を推定(読唇)するAIアプリを開発
  • 事前に声を登録することで、発話内容を本人の声で発声することも可能に
  • 母音の少ない日本語で困難だった読唇を口形状の高度符号化と自然言語処理AIの融合で実現
  • 喉頭がんや下咽頭がんなどで手術後に声を失った患者さんの声を再生し、術後QOLの改善に貢献

概要

大阪大学大学院情報科学研究科 御堂義博特任准教授(常勤)、三浦典之教授と大学院医学系研究科 猪原秀典教授の研究グループは共同で「AI読唇による日本語発話システムLip2ja」 を開発し、スマートフォンアプリに実装しました(図1)。

これは、英語などの母音の多い言語とは異なり、母音の少ない日本語では困難だった読唇を、口形状の高度な符号化(口形コードの利用)とChatGPTなどにも利用されている自然言語処理AIを組み合わせることで、実用レベルで日本語発話内容を推定できるAI読唇アプリです。このAIアプリを利用すれば、スマートフォンなどのカメラで撮影した口元の動画像から、発話したい内容の日本語文字列を推定することができます。

さらにこのアプリに、短時間の発話音声の記録で個人の声での音声合成が可能な発話プラットフォーム「CoeFont」(開発:株式会社CoeFont(本社:東京都港区、代表取締役:早川 尚吾))を組み合わせ、読み取った発話内容を本人の声で発声することもできるようになりました。CoeFontアプリに、喉頭がんや下咽頭がんなど、病気に伴う手術などで声を失う可能性がある患者さんに、事前にご本人の声を登録いただくことで、手術後に失われてしまった声を口元の動きのみから再生することが可能となります。声を再生することは、ご本人のみならず、一緒に暮らすご家族のQOL向上につながります。

本AI読唇アプリについて、第75回日本気管食道科学会(2024年10月15日)で発表しました。

20241015_3_1.png

図1. AI読唇アプリLip2jaの利用例

研究の背景

喉頭がんや下咽頭がんなどにより声を失った患者さんの発声方法に「代替音声」があります。これには発声のため首に装着する特殊な機械や、首元に空けた穴で発声することが必要で、患者さんにとっての大きな身体的負担となっていました。また、代替的に発声される声もご本人の術前の声とは程遠いものとなるという課題もありました。別の方法として、音声合成プラットフォームアプリなどに文字列を入力することで、個人の術前の声で発話内容を伝えることも可能です。しかし、このようなご病気を抱える患者さんは高齢者が多く、スマートフォンへの文字入力にわずらわしさを感じる、時間がかかるなどの課題があり、口元の動きだけからノンストップで発声する方法の開発が待ち望まれていました。

カメラで撮影した口元の動画像から発話内容を推定する機械読唇アプリは、母音数の多い英語(24程度)では、高精度に実現されていました。しかし、母音数が5と極めて少ない日本語では、実現が困難であることが知られていました。基本的には、発話時の口元の形状は、発話している文字列の母音で決まります。例えば、日本語で「あ」と言っているときの口元の形状と、「か」と言っているときの口元の形状は、ほとんど見分けがつきません。このように、母音数の少ない言語では読唇が困難であると考えられていました。  

2009年、神奈川工科大学情報学部の宮崎剛助教(所属、職名は論文発表当時)らは、「口形コード」を発表しました。宮崎助教らは、日本語発話時の口元の形状変化に対して、発話文字の母音だけではなく、発話文字列の前後関係に着目した法則性を見つけ、前後関係を踏まえて変化する口元の形状の高度な符号化に成功しています。この「口形コード」は、16種類からなり、5種類の日本語母音よりも詳細に口元の形状と発話文字列を関連付けられます。

しかし、この「口形コード」を読唇に実装した例はありませんでした。

研究の内容

研究グループは、この「口形コード」をAI読唇に応用するために、口元の動画像から「口形コード」を推定するAIと、推定された「口形コード」を日本語文字列に変換するAIを二段階式で組み合わせた独自のAI読唇アプリを開発しました。初段のAIで、口元形状画像から発話文字列に関するより詳細な情報を有する「口形コード」を高精度に推定し、二段目のAIで、ChatGPTなどの対話型の言語生成AIの分野で飛躍的に発展した自然言語処理AIを利用することで、普通の日本人には判読できない「口形コード」を自然な日本語に「翻訳」することができました。

さらにこのアプリに、短時間の発話音声の記録で個人の声での音声合成が可能な発話プラットフォーム「CoeFont」を組み合わせ、読み取った発話内容を本人の声で発声することもできるようになりました。CoeFontアプリに、喉頭がんや下咽頭がんなど病気に伴う手術などで声を失う可能性がある患者さんに、事前にご本人の声を登録いただくことで、手術後に失われてしまった声を口元の動きのみから再生することが可能となります。声を再生することは、ご本人のみならず、一緒に暮らすご家族のQOL向上につながります。

研究グループは、CoeFont社より、CoeFontアプリの無償提供を受けて、今回のシステムの開発に成功しました。

本研究成果が社会に与える影響(本研究成果の意義)

本研究成果により、喉頭がんや下咽頭がんなどのご病気に伴う手術で声を失った患者さんの術前の声を、口元の動きだけからノンストップで再生できます。また、声帯はあるものの気管切開によって発声できない患者さんの声を再生することもできます。代替音声を使用したときに生じるような身体的負担もなく、円滑かつ自然な会話を実現できます。声を再生することは、ご本人のみならず、一緒に暮らすご家族のQOL向上につながります。

特記事項

本研究成果は、2024年10月15日(火)17時30分(日本時間)に、第75回日本気管食道科学会総会ならびに学術講演会のパネルディスカッションにて、御堂特任准教授(常勤)により発表されました。

タイトル:“Lip2ja: 口唇映像による日本語の発話”

参考URL

御堂 義博 特任准教授(常勤)研究者総覧
https://rd.iai.osaka-u.ac.jp/ja/af12dd37cdc7632b.html

SDGsの目標

  • 03 すべての人に健康と福祉を

用語説明

口形コード

2009年に神奈川工科大学情報学部の宮崎剛助教(所属、職名は論文発表当時)らにより発表された、日本語の発話時の口元の形状を符号化したもの。16種類の符号からなり、発話文字列の前後関係も考慮して、発話内容に応じて口元形状を詳細に符号化できるようにした。

ChatGPT

米国OpenAIが開発した対話型の言語生成AI。以下で説明する自然言語処理AIを極めて大規模化することで、文字列の文脈を理解した多様な言語の生成、多様な言語の翻訳が可能なAIチャットボット。

自然言語処理AI

人間が使用している自然な言語を生成することができるAI装置の総称。入力文章に対する応答の生成、文章の他言語への翻訳、文章の校正などが可能