＼AI・深層学習の準備コストを大幅減／実在しない都市画像の合成データセットを自動生成

実世界の建物を一定条件下で正確に検出

2023-9-21●工学系

工学研究科准教授福田知弘

都市景観を対象とした、深層学習モデルの学習に必要な大量の学習データ（現実らしい架空の都市画像とアノテーションデータのペア）を自動的に生成するフレームワークを開発。プロシージャルモデリングと深層学習による画像変換技術を組み合わせることで実現。
開発したフレームワークにより、データセットの準備コストの大幅削減が可能に。
生成したデータセットで学習した深層学習モデルが一定の条件下で実世界の建物を正確に検出した。
新フレームワークは、今後想定される深層学習モデルの学習データ不足を抑制することが期待される。

概要

大阪大学大学院工学研究科の菊池拓哉さん（２０２３年３月修了）、福田知弘准教授、矢吹信喜教授らの研究グループは、プロシージャルモデリングと深層学習による画像変換技術を用いることで、現実らしい架空の景観画像を自動的に生成する方法を開発しました。これは、現実都市の景観画像から建物を個別に検出する深層学習モデルの学習に必要な大量のデータセットとして活用できます。

都市景観のシミュレーションや分析を行うために、深層学習を応用した研究が行われています。それらの研究はデータに基づく議論を可能にしますが、個別の建物まで着目した高精細なシミュレーションや分析事例は多くありません。高性能な深層学習モデルを提供するためには大量の学習データが必要とされており、そのデータセットを作成するコストの高さがネックになっています。

これまで、深層学習に用いるデータセットは人が手作業で作成する方法が主流であり、多くのコストがかかっていました。そこで近年、仮想物体や３次元デジタルツインモデルと画像を組み合わせた、データセット生成法が提案されてきました。しかし、これらの既存法はデータセットを自動的に生成できますが、実在する都市データを事前に用意する必要があることに加え、作成できるデータのバリエーションが有限であるという課題がありました。

そこで、これらの課題を解決するために、現実的な非実在都市の３次元モデルデータを生成できるプロシージャルモデリングと現実的な画像を生成できる深層学習の画像変換技術を組み合わせた、合成データ自動生成法を開発しました。

図1は、プロシージャルモデリングと画像変換技術を用いて、大量の学習データを自動的に生成する一連のフローを示しています。生成したい都市のパラメータを入力するだけで、学習データを生成するもとになる３次元都市モデルが生成され、そのモデルをもとに大量の学習データが生成されます。生成された大量の学習データを用いて深層学習モデルを学習させ、実世界の画像から対象物を検出することを目標としています。

図２は、設定した入力パラメータに対する、各ステップでの生成結果の一例を示しています。Step1では３次元都市モデルを自動生成するために都市の特徴を定めるパラメータを入力します。Step2ではStep1で生成した３次元都市モデルと画像サイズなどの設定を入力し、ゲームエンジン上でアノテーションデータと景観画像データを生成するために必要なセグメンテーション画像のペアを生成します。Step3では画像変換技術を用いてStep2で生成されたセグメンテーション画像を現実らしい学習用画像に変換します。そして、Step4でアノテーションデータと学習用画像を関連付けます。

図3は本研究で開発した方法を用いて生成した合成データセットを準備し、それを学習したインスタンスセグメンテーションモデルを用いて建物を個別検出した結果です。これらの結果により、提案した方法で生成されたデータセットを用いて学習したインスタンスセグメンテーションモデル（図３・2行目）は、手作業により現実世界の画像で作成したデータセットで学習したモデル（図３・３行目）と同程度、もしくは、より優れた検出結果を得られたことがわかります。

図1. 提案方法の概要。プロシージャルモデリングを用いて現実らしい架空の３次元都市モデルを自動生成し、ゲームエンジンと画像変換技術を用いて、３次元都市モデルから現実らしい架空の都市画像とアノテーションデータを自動生成します。

図2. 開発したフレームワークを用いた際に、各ステップで生成されるデータ
左列：本研究で使用したパラメータ項目とその設定値の例。右列：設定したパラメータをもとに生成されたデータの一例。

図3. 提案法で生成したデータセットを用いて学習したモデル（2行目）と、現実画像を用いて学習したモデル（3行目）の検出精度の比較。現実画像で学習したモデルと同程度、もしくはより優れた結果を得ることが可能であることが示された。赤破線は現実画像で学習したモデルより優れた結果を得られた領域を示す。

本研究成果が社会に与える影響(本研究成果の意義)

人工知能の精度が向上するにつれて、学習に用いられるデータセットの規模も大きくなる傾向があります。しかし、データセットの規模が大きくなるにつれて、データセットを作成するためにかかるコスト（労働力、時間）が増加し、学習に用いるデータの不足が想定されています。本研究の成果は、データセットの準備コストを大幅に削減できることを示すとともに、都市景観のような複雑な構成の画像を対象とする場合でも、合成データを用いることが可能であることも示唆しています。そのため、本研究成果は都市景観を対象とした複雑なシミュレーションや分析を可能にするだけでなく、人工知能の活用が検討されている他の分野においても新たな選択肢を提示しています。

特記事項

本研究成果は、２０２３年９月１日（金）（日本時間）に、学術雑誌「Advanced Engineering Informatics」（Elsevier社）にオンライン掲載されました。

タイトル: “Development of a synthetic dataset generation method for deep learning of real urban landscapes using a 3D model of a non-existing realistic city (現実都市景観を対象とした深層学習のための現実的な非実在都市の3次元モデルを用いた合成データセット生成法の開発)”
著者名:Takuya KIKUCHI, Tomohiro FUKUDA, and Nobuyoshi YABUKI (大阪大学　大学院工学研究科　環境エネルギー工学専攻)
DOI: https://doi.org/10.1016/j.aei.2023.102154

参考URL

福田知弘准教授研究者総覧
https://rd.iai.osaka-u.ac.jp/ja/d2782e4b9c864b39.html

SDGsの目標

用語説明

アノテーションデータ: 学習画像中にどんな物体がどの位置に存在しているかを示したデータ。深層学習モデルはこのデータを参照し学習を行う。
プロシージャルモデリング: 生成モデルの一種であり、入力されたデータから現実に存在しないそれらしい画像を生成したり、ある特徴に沿って入力されたデータを変換したりする技術。
深層学習による画像変換技術: 入力された画像の構図を維持したまま、異なるスタイルの画像に変換・生成する技術。
合成データ: コンピュータシミュレーションや現実に基づくアルゴリズムを用いて、もしくはゼロから人工的に生成されたデータ。
インスタンスセグメンテーションモデル: 画像内に含まれる物体を個別に検出し、ピクセル単位で塗りつぶして、種類を判別する深層学習モデル。

キーワード

合成データセット深層学習敵対的生成ネットワーク（GAN）インスタンスセグメンテーション都市景観建物ファサード SDGs

この研究についてひとこと

福田知弘