医療ビッグデータ活用により機械学習の優位性を解明
特定健診結果から糖尿病発症確率の高精度予測を可能にする機械学習技術
研究成果のポイント
- 糖尿病発症確率予測における機械学習の優位性を発見
- 糖尿病の発症予測において現在主流のAIモデルであっても古典的な統計モデルと予測精度が変わらないとされてきた
- これまでは小規模の健診データしか利用できなかったが、大阪府の協力によって大阪府健診ビッグデータを使用したAIモデルの構築が可能になった
- 生活習慣病の高精度な発症確率予測への応用が可能である。さらに、その成果を多くの人が自律的に活用することで健康寿命延伸に貢献できる
概要
大阪大学大学院人間科学研究科の大学院生の瀬戸ひろえさん(博士後期課程)、キャンパスライフ健康支援・相談センターの土岐博特任教授らの研究グループは、機械学習が非常に高い精度で糖尿病の発症確率予測に使えることを世界で初めて明らかにしました。
このことにより、特定健診のビッグデータを使って、生活習慣病などの発症確率を高精度で予測するAIモデルを作成することが可能になりました。病気の発症前に個人が発症確率を知ることにより、個人の努力で病気発症を抑制する生活習慣改善の動機とすることができます。
これまで糖尿病の発症確率予測においては、古典的な統計モデルと機械学習によるAIモデルでは同等の精度しか出せないと考えられており、機械学習の有用性については解明されていませんでした。
今回、土岐特任教授らの研究グループは、大阪府国保連合会保有の国民健康保険被保険者の健診結果データ(年間で約60万人分のビッグデータ)を活用することにより、糖尿病発症予測において1万をこえるビッグデータでの機械学習の優位性を定量化し、機械学習が健康予測に高精度で適用できることを解明しました。これにより、糖尿病のような生活習慣病の発症確率予測を高い精度で行うことが期待されます。
本研究成果は、英国科学誌「Scientific Reports」に、10月11日(火)18時(日本時間)に公開されました。
図. 予測値と計測値の違いを表す指標である誤差因子ECEをサンプルサイズの関数で図示した。
研究の背景
これまで、糖尿病などの病気発症確率予測は、古典的統計モデルであるロジスティック回帰モデルと機械学習を用いたAIモデルにはその発症予測の精度において差異はないと考えられていました。病気の発症予測を精度良く行うためには多くの人たちの健診結果を使う必要がありますが、個人情報であることでデータの入手や活用が困難であったことから、これまではモデル構築を行うための人数(サンプルサイズ)が少なく、機械学習モデルの予測精度を検証するための十分なデータ数が集まらないという課題がありました。
研究の内容
土岐特任教授らの研究グループでは、大阪府国保連合会および大阪府保険者協議会の協力により、個人が特定できないように加工された国民健康保険被保険者の健診結果データなどを取得することができました。このうち、糖尿病の発症予測モデルを構築するための対象者を抽出した結果、約28万人の国保被保険者が対象となりました。そこからさまざまなサンプルサイズでデータを抽出し、サンプルサイズを変化させたときにどれだけの精度で予測確率が推定できるか検証しました。図に示すように計算の誤差はサンプルサイズが1万を超えるところから顕著に差が現れ、機械学習が良い精度を出すことが判明しました。
これらの計算には勾配ブースティング決定木という高度に発展させた決定木の方法を用いました。このモデルは効率良く計算を行うPythonのパッケージLightGBMを用いることで、高速な計算が可能となり、ビッグデータを使った数値計算を何度も繰り返すことが可能であったことも非常に重要でした。
本研究成果が社会に与える影響(本研究成果の意義)
本研究成果により、機械学習によって、非常に精度の高い病気発症確率予測のためのAIモデルを開発することが可能であることが判明しました。この成果を応用して、3大生活習慣病である糖尿病、脂質異常症、高血圧の発症確率を予測する精度の高いAIモデルを機械学習によって作成し、大阪府が運営するスマートフォンアプリ「アスマイル」に搭載しました。多くの人が日常生活の中で、事前に数年後の生活習慣病の発症確率を知ることができる状態を作れたことで、各人が自律的に健康を維持するような生活習慣病改善の重要な道具となることが期待されます。
特記事項
本研究成果は、2022年10月11日(火)18時(日本時間)に英国科学誌「Scientific Reports」(オンライン)に掲載されました。
タイトル:“Gradient Boosting Decision Tree Becomes More Reliable Than Logistic Regression in Predicting Probability for Diabetes With Big Data”
著者名:Hiroe Seto, Asuka Oyama, Shuji Kitora, Hiroshi Toki, Ryohei Yamamoto, Jun’ichi Kotoku, Akihiro Haga, Maki Shinzawa, Miyae Yamakawa, Sakiko Fukui and Toshiki Moriyama
DOI:https://doi.org/10.1038/s41598-022-20149-z
なお、本研究は、JSPS科学研究費(19H03871)の一環として行われ、大阪大学キャンパスライフ健康支援・相談センターの守山敏樹教授の協力を得て行われました。
SDGsの目標
用語説明
- 勾配ブースティング決定木
決定木を複数組み合わせることで予測精度を向上させる機械学習モデルの一つ。プログラミング言語であるPythonで実行可能なLightGBMを利用することで高速な計算が可能となる。
- LightGBM
計算時間のかかる勾配ブースティング決定木を高度化・高速化した機械学習ソフトウェアであり、最近では多くの研究に利用されている。機械学習のパラメータを決定するのは難しく何度も計算が必要だが、LightGBMにはパラメータチューニングを効率的に行うパッケージも存在しており、非常に使い勝手の良いソフトウェアである。
- アスマイル
大阪府民一人一人が自律的に健康を推進することを目的として大阪府が開発・運営をおこなっているスマートフォン用の健康アプリ。毎日の歩数や体重、血圧などを記録することができ、大阪府民で市町村国保加入者であれば健診結果も自動的に記録される。日々掲載される健康に関する記事を通じて健康に対する留意点を学ぶこともできる。