
\レンズ×AIの共同作業/ 1枚の写真撮影だけで距離を計測&全焦点画像を復元
ボケに模様を持たせるレンズとAIモデルによる三次元イメージング新技術
研究成果のポイント
- 1枚のボケ写真から、被写体までの距離情報を計測し、ピントの合った画像を復元する新手法を開発
- レンズに特殊なマスクを入れることで被写体の距離に応じて写真に記録される異なるボケの模様に加え、AI(拡散モデル)が学習した「自然な画像らしさ」の知識を補助的に活用し、計測・復元
- 撮影の物理法則に基づいて答えを求めるため、カメラやノイズなどの撮影条件が変わっても安定した復元が可能
- カメラ1台で距離計測が可能であることから、LiDARなどの専用センサに比べて装置の小型化・低コスト化に期待
概要
大阪大学大学院基礎工学研究科の中村友哉 准教授らの研究グループ(大学院情報科学研究科の河内穂高さん(博士後期課程)、D3センターのJosé Reinaldo Cunha Santos A V Silva Neto 特任研究員(常勤)、八木康史 特任教授(常勤)、長原一 教授(常勤))は、レンズ内に配置した特殊なマスク(符号化開口)が写し出す、距離ごとに異なるボケの模様を手がかりに、撮影された1枚の写真から、被写体までの距離情報とピントの合った画像を物理法則に基づいて同時に復元する新たな手法を開発しました(図1)。
ピントが合っていない部分に生じる「ボケ」には距離の情報が含まれていますが、ボケから距離と画像を同時に復元するには手がかりが足りず、答えが一つに定まりません。従来は、人間が経験的に作ったルールを手がかりにする方法や、大量のデータで答えを学習する深層学習の方法が用いられてきましたが、高い精度の実現が困難である点や、撮影条件が変わると性能が落ちる点が課題でした。
本研究では、撮影の物理法則に沿って、観測されたボケ画像と矛盾しない答えを探す枠組みを構築しました。通常の方法では答えを絞り切れないため、補助情報として、「拡散モデル」と呼ばれるAI技術が学習した「自然な画像らしさ」の知識を利用しています。AIは撮影条件に依存しない汎用的な補助情報としてのみ働くため、カメラやノイズの条件が変わっても安定した復元が可能です。シミュレーション実験と試作カメラによる実験の両方で有効性を確認しました。
本成果は、LiDARなどの専用センサに比べて小型・低コストな装置の実現や、さらなる精度向上と適用範囲の拡大が期待されます。
本研究成果は、米国電気電子学会の学術誌「IEEE Transactions on Computational Imaging」に5月28日(木)にEarly Access版が掲載されました。正式版が近日中に公開予定です。
図1. 研究成果の概要。符号化開口を用いて撮影した1枚のぼけ画像から、撮影の物理法則に基づいて被写体の距離と全焦点画像を同時に復元する。拡散モデルを事前知識として活用することで高い精度を達成。
研究の背景
カメラで撮影した1枚の写真から被写体までの距離を測ることができれば、三次元計測やロボットの環境認識など多くの場面で役立ちます。レンズのピントが合っていない部分には「ボケ」が生じますが、このボケの大きさや形には被写体の距離に関する情報が含まれています。
レンズの開口部に特殊なマスクを入れると、距離ごとに異なる特徴的なボケの模様が現れるため、距離をより推定しやすくなります。この仕組みは以前から知られていましたが、ボケから距離とピントの合った画像を同時に復元するには手がかりが足りず、何らかの補助的な知識が欠かせません。
従来は人間が経験的に作ったルールを補助知識として用いていましたが、精度に限界がありました。近年登場した深層学習による方法は精度が向上した一方、学習に使ったデータと実際の撮影条件(ノイズの量やレンズの特性など)が異なると性能が大きく低下し、実環境での利用が難しいという課題がありました。
研究の内容
本研究では、撮影の物理法則に基づいて、観測されたボケ画像と矛盾しない答えを探す枠組みを構築しました。具体的には、特殊なマスクを通して撮影されたボケ画像がどのように生成されるかを数式で表した物理モデルを用い、そこから距離とピントの合った画像を逆算します。しかし、この逆算だけでは手がかりが足りず、答えを一つに絞ることができません。
そこで本研究では、拡散モデルと呼ばれるAI技術を補助情報として組み込みました(図2)。拡散モデルは画像生成AIの基盤技術の一つで、大量の画像から「自然な画像とはどういうものか」を学習しています。この知識を、もっともらしい答えを選び出すための判断基準として活用します。
重要なのは、拡散モデルが担うのはあくまで補助的な役割であり、復元の主体は物理モデルに基づく逆算であるという点です。そのため、拡散モデルの学習に使ったデータと実際の撮影条件が異なっていても、物理法則との整合性が保たれる限り安定した復元が可能です。従来の深層学習がボケ画像から距離への対応をそのまま覚えるのに対し、本手法ではカメラやレンズの特性と学習データを切り離すことができます。
シミュレーション実験では、学習時とは異なるノイズ条件でも安定した精度を維持し、従来の深層学習に比べて条件変化に強いことを確認しました。さらに、特殊マスク(符号化開口)を搭載した試作カメラを製作し、実際の撮影画像からも距離とピントの合った画像を同時に復元できることを実証しました。
図2. 技術の概要。再構成アルゴリズムは、観測画像と矛盾しない被写体距離・画像情報を最適化により探索する。この最適化問題は不良設定問題と呼ばれ、観測データと矛盾しない解が多数存在するため、答えを一つに絞ることが困難である。この問題を解決するために、本研究では、符号化開口が実現する距離情報の強力な特徴づけと、拡散モデルが持つ自然画像に関する強力な事前知識を援用する。
本研究成果が社会に与える影響(本研究成果の意義)
本手法は、特殊なマスクを装着した通常のカメラ1台で距離計測が可能なため、LiDARなどの専用センサに比べて装置の小型化・低コスト化が期待できます。また、撮影条件の変化に頑健であることから、カメラやレンズを変更するたびに大量のデータを再学習する必要がなく、多様な環境での利用が見込まれます。今後、拡散モデルの大規模化やマスクの設計最適化を進めることで、さらなる精度向上と適用範囲の拡大が期待されます。
特記事項
本研究成果は、米国電気電子学会の学術誌「IEEE Transactions on Computational Imaging」(オンライン)に5月28日(木)にEarly Access版が掲載されました。正式版が近日中に公開予定です。
タイトル:“Single-Image Depth from Defocus with Coded Aperture and Diffusion Posterior Sampling”
著者名:Hodaka Kawachi, José Reinaldo Cunha Santos A V Silva Neto, Yasushi Yagi, Hajime Nagahara, and Tomoya Nakamura
DOI:https://doi.org/10.1109/TCI.2026.3697618
なお、本研究は、JST創発的研究支援事業(課題番号:JPMJFR206K)、JSPS科研費(課題番号:25K24609, 24KJ1660)、およびコニカミノルタ光未来奨励金(日本光学会、コニカミノルタ科学技術振興財団助成)の支援を受けて実施されました。
参考URL
中村友哉 准教授 研究者総覧
https://rd.iai.osaka-u.ac.jp/ja/5b3b098f2f5e6e09.html
SDGsの目標
用語説明
- 符号化開口
Coded Aperture。カメラのレンズの開口部(絞り)に特殊なパターンのマスクを用いる技術。通常の円形開口とは異なり、被写体の奥行きに応じて特徴的なボケパターン(点拡がり関数)が生じる。この特徴を利用することで、通常のカメラでは得にくい情報(奥行きや鮮明な画像など)を計算によって推定・復元できる。
- 拡散モデル
Diffusion Model。画像生成AIの基盤技術の一つ。画像に段階的にノイズを加える仕組みを利用し、ノイズが加わった画像から元の自然な画像を少しずつ推定・復元する方法を学習する。これにより、高品質な画像生成や画像復元が可能となる。
