少ないデータから高精度に腎疾患を解析するAIを開発
「自己教師あり学習」が広げる医療AI開発の可能性
研究成果のポイント
- 自己教師あり学習の活用で、少ないラベルつきデータから効率的に腎疾患分類を行うAIを開発。
- 人間の指示なしで腎病理画像の重要な組織学的特徴の抽出が可能に。
- 大規模なラベル付きデータの入手が困難な領域への応用に期待。
概要
大阪大学医学部医学科6年の安部 政俊さん、九州大学データ駆動イノベーション推進本部 新岡 宏彦 教授、大阪大学大学院医学系研究科 松井 功 講師、猪阪 善隆 教授(腎臓内科学)の研究グループは、自己教師あり学習を腎糸球体画像疾患分類に適応し、少ないラベルつきデータから効率的に疾患分類を行うAIを開発しました。
これまで、腎病理画像解析AIの開発には大量のラベル付きデータに基づく学習が必要であり、大規模なデータセット作成が困難であることが課題となっていました。
研究グループは、自己教師あり学習を腎病理画像解析に用いることで、少ないラベル付きデータセットから高い精度で疾患部類などが可能であるAIモデルを開発しました。このAIは、糸球体内の構成要素を色分けして可視化でき、ラベル情報なしで形態学的な違いを学習することが確認されました。さらに、このモデルを用いて腎疾患を分類した結果、従来の手法を超える性能を達成しました。特にラベル付きデータが少ない場合にも高い性能を維持しました。自己教師あり学習を用いることで、デジタル病理学における深層学習の応用の効率化が進み、さらなる発展を遂げることが期待されます(図1)。
本研究成果は、米国科学誌「Journal of the American Society of Nephrology」に、10月9日(水)(日本時間)に公開されました。
図1. 自己教師あり学習により効率的な病理画像AI開発が可能になる
研究の背景
深層学習は腎生検病理画像解析に有効であるということが知られています。しかし、深層学習モデルを十分に学習させるにはラベルつきデータを大量に集める必要があり、ラベル付きデータが乏しいことが腎生検画像の解析における深層学習の普及を妨げています。
研究の内容
本研究グループは、大阪大学医学部附属病院腎臓内科で腎生検を受けた384例のPAS染色画像中の10,423枚の糸球体画像に自己教師あり学習の手法の一つであるDINO(self-distillation with no labels)を適応しました。
DINO学習済みモデルによって生成された特徴マップを可視化するために主成分分析(PCA)を用いると、糸球体の構成要素ごとに色が分かれ、異なる組織には異なる主成分の要素が強く出ていることが確認できました(図2)。
図2. 自己教師あり学習を用いることで、人間の指示なしで組織学的特徴を抽出
自己教師あり学習および従来手法で抽出した画像特徴の主成分をカラー表示
自己教師あり学習では腎糸球体の構成要素ごとに色が分かれている
そして、DINO学習済みモデルまたは従来のImageNet学習済みモデルを用いて分類タスクを学習させ、受信者動作特性曲線下面積(ROC_AUC)などの指標を用いて性能を評価しました(図3)。分類タスクとして微小糸球体病変、メサンギウム増殖性糸球体腎炎、膜性腎症、糖尿病性腎症の4疾患分類と、高血圧、蛋白尿、血尿などの臨床パラメータ分類の2つを用いました。
疾患分類では、DINO学習済みモデル(ROC_AUC=0.934)がImageNet学習済みモデル(ROC_AUC=0.892)を上回りました。ラベル付きデータが制限された場合、ImageNet学習済みモデルのROC_AUCは0.763[95%信頼区間:0.724-0.802]に低下しましたが、DINO学習済みモデルは優れた性能を維持しました(ROC_AUC=0.882 95%信頼区間:0.862-0.903)。DINO学習済みモデルはいくつかの臨床パラメータにおいてもより高いROC_AUCを示しました。
図3. 自己教師あり学習により疾患分類性能が向上
本研究成果が社会に与える影響(本研究成果の意義)
本研究では自己教師あり学習を腎糸球体分類に適応することで、最小限のラベル付けでも高い性能で疾患分類を行うことができることを示しました。自己教師あり学習を用いることでデジタル病理学における深層学習の応用の効率化が進み、さらなる発展を遂げることが期待されます。
特記事項
本研究成果は、2024年10月9日(水)(日本時間)に米国科学誌「Journal of the American Society of Nephrology」(オンライン)に掲載されました。
タイトル:“Self-supervised learning for feature extraction from glomerular images and disease classification with minimal annotations”
著者名:安部政俊1, 2,新岡宏彦3,松本あゆみ2,勝間勇介2,今井淳裕2,奥嶋拓樹2, 尾崎晋吾4, 藤井直彦4, 岡一雅5, 坂口悠介2, ,井上和則2,猪阪善隆2,松井功*2(*責任著者)
所属:
1. 大阪大学 医学部医学科
2. 大阪大学 大学院医学系研究科 腎臓内科学
3. 九州大学 データ駆動イノベーション推進本部 健康医療DX推進部門
4. 兵庫県立西宮病院 腎臓内科
5. 兵庫県立西宮病院 病理診断科
DOI:https://doi.org/10.1681/asn.0000000514
本研究は、鷹野学術振興財団 鈴木万平糖尿病財団 島津科学技術振興財団 西川医療振興財団の助成を受けて行われました。
参考URL
SDGsの目標
用語説明
- 自己教師あり学習
ベルのないデータを使用して、下流のタスク(本研究では疾患分類や臨床パラメータ分類)に有用な表現を得るための機械学習の手法の一つ。
- 主成分分析(PCA)
多数の変数を持つデータから最も重要な情報を抽出し、より少ない新しい変数(主成分)に要約する統計手法で、データの解釈を容易にする。
- ImageNet
画像認識の研究で用いるために設計された大規模な一般画像のデータセット。
- 受信者動作特性曲線下面積(ROC_AUC)
横軸に偽陽性率、縦軸に真陽性率をプロットし、曲線が上に凸なほどモデルの性能が高いことを示し、AUC(曲線下の面積)が1に近いほど、モデルの予測力が優れていることを示す。