寄稿:福地 清康

東京大学医学部医学科6年。治療効果の推定や意思決定の最適化に興味があり,TXP Medicalおよび理化学研究所にてインターンとして研究を行っている。

はじめに

TXP Medical株式会社リサーチチームでは,医療データ分析コンペティションへの参加や公開データセットを用いた研究も積極的に行っています。今回は,国立シンガポール大学が主催したHealthcare AI Datathonにおいて Finalist & Outstanding Performance Awardに選出され,その後Critical Care Explorations誌から出版された研究論文を紹介します。

筆者コメント

ICUでは胸部レントゲン画像が循環器および呼吸器系の評価に重要な役割を担っていますが,抜管前の胸部レントゲン画像の所見が,抜管失敗のリスクを評価するために有益かどうかについての報告は限られています。臨床的にはあまり有用でないと言われていますが、Less is moreの視点からも不要であるならルーチンで撮影はすべきでないというエビデンスを支持することができれば臨床的にも有用であると考えました。そこで本研究では近年多分野での応用が進みつつある機械学習および深層学習を用いて,抜管前の胸部レントゲン画像が抜管失敗の予測に寄与するかどうか評価しました。今後も人工知能を臨床現場に実装しより良い治療を効率的に提供するための研究を継続していきます。

論文概要

Fukuchi K, Osawa I, Satake S, et al. The Contribution of Chest X-Ray to Predict Extubation Failure in Mechanically Ventilated Patients Using Machine Learning-Based Algorithms. Crit Care Explor. 2022;4(6):e0718. Published 2022 Jun 10. doi:10.1097/CCE.0000000000000718

背景

早すぎる抜管は再挿管を必要とし,人工呼吸器関連肺炎や筋力低下などの合併症による高い死亡率と関連することが知られている[1]。ICUでは胸部レントゲン写真(CXR)が循環器および呼吸器系の疾患の重症度や合併症の評価に重要な役割を担っていることから[3],抜管前のCXR所見は抜管失敗のリスクをより正確に評価するために有益であると考えられている[4]。しかし,専門家の意見としてルーチンのCXRは抜管前の評価に推奨されず[5],抜管前のCXRの抜管失敗のリスク評価への有用性のエビデンスは十分でない。そこで,CXRを特徴量に用いる場合と用いない場合の抜管失敗予測モデルを機械学習を用いて開発し,各モデルの予測性能を比較することで抜管前のCXRが抜管失敗予測に与える影響を評価した。

方法

本研究は,Medical Information Mart for Intensive Care IV (MIMIC-IV) データセット [6] および Medical Information Mart for Intensive Care Chest X-ray (MIMIC-CXR) データセット [7] を用いた後向きコホート研究である。上記データセットに含まれる,侵襲的陽圧換気を受け,抜管された18歳以上の患者のうち,自発呼吸トライアル(SBT)を完了した記録がない患者,人工呼吸中の一回換気量(TV)または呼吸数(RR)のいずれかのデータが欠落しているために浅速換気指数(RSBI)を算出できない患者,抜管前48時間以内にCXRを撮影していない患者,緩和的に抜管を行ったと考えられる患者を除外した。予測モデルに入力する変数(特徴量)は,患者情報,抜管前のバイタルサイン,血液検査,人工呼吸器の設定,SBT開始から1時間以内のTVとRRの平均値で算出したRSBI,抜管前のCXR画像を用いた。予測するアウトカムは,抜管後48時間以内の再挿管または死亡とした[8]。抜管失敗の確率を予測するために,畳み込みニューラルネットワークと勾配ブースティング決定木を利用した。CXR画像から特徴を抽出するためにEfficientNet[9]を使用し,抜管失敗の確率を予測するためにLightGBMを用いた[10]。CXRのみを用いたEfficientNetベースの画像分類モデルと,異なる変数を用いたLightGBMベースの4つのモデル((1)RSBIのみを用いたモデル,(2)RSBIとCXRを用いたモデル,(3)CXR以外の全ての変数を用いたモデル,(4)CXRを含む全ての変数を用いたモデル)について,抜管失敗の予測能力を比較した。また,SHapley Additive exPlanations (SHAP)[12]を用いて,入力した変数が機械学習モデルの予測に与える影響を評価した。

結果

1,066人の患者が対象となり,抜管失敗は132例(12.4%)含まれていた。学習した機械学習モデルのROC曲線,PR曲線,決定曲線を図1に示す。CXRのみを用いたEfficientNetベースの画像分類モデル(図1A灰色曲線)の予測精度(AUROC, 0.55 [95% CI, 0.49-0.60])は,RSBIのみを用いたLightGBMモデル(図1A黄色曲線)の予測精度(AUROC, 0.56 [95% CI, 0.51-0.62])と同等であった。RSBI に CXR を加えて(図1A緑色曲線)も,予測精度は向上しなかった。その他の変数も用いた予測モデル(図1A青色曲線)は,RSBI のみを用いたモデルよりも高い予測精度を有していたが,CXR を追加して(図1A紫色曲線)も予測精度は向上しなかった。PR曲線,決定曲線分析においても同様の傾向が見られた。図2に示される通り、各変数のSHAP値においてCXRは,他の変数と比較して,抜管失敗の予測モデルに与える影響が小さかった。

図1
A: ROC曲線。横軸が偽陽性率(1 – 特異度),縦軸が真陽性率(感度)を表す。
B: PR曲線。横軸が再現率,縦軸が適合率を表す。
C: 決定曲線。横軸は抜管失敗と判定する閾値,縦軸は得られる利益(真陽性率)を示す。
図2

CXRを含むすべての変数を用いた予測モデルにおける, SHAP値のサマリープロット。横軸はSHAP値を表し,それぞれの変数とサンプル毎にSHAP値を計算した。ドットの色は各変数の絶対値を示す(赤いドットは高い値,青いドットは低い値)。SHAP値が高いほど,抜管失敗の可能性が高くなる。縦軸は予測モデルに入力された変数を表し,全データにわたるSHAP値の絶対値の平均(変数毎の予測モデルへの影響度)に基づいてソートされている。

今後の展望

肺浸潤が抜管後呼吸不全に先行する患者もいることから,潜在的な肺浸潤を評価するために抜管直前にCXRを撮影することは正当化できるかもしれないが,抜管前のCXRが抜管失敗の予測に有用であることは限定的であることが示唆された。また,本研究では,画像やその他の特徴を機械学習モデルに組み込み,効率的にモデルの訓練とハイパーパラメータの調整を行い,性能を評価する包括的な方法を提案した。このアプローチは機械学習の多くのフレームワークで適用することができ,人工知能を医療データに適用する今後の研究の参考となると期待される。

参考文献

  1. Thille AW, Harrois A, Schortgen F, Brun-Buisson C, Brochard L. Outcomes of extubation failure in medical intensive care unit patients. Crit Care Med. 2011;39(12):2612-2618.
  2. Navalesi P, Frigerio P, Moretti MP, et al. Rate of reintubation in mechanically ventilated neurosurgical and neurologic patients: evaluation of a systematic approach to weaning and extubation. Crit Care Med. 2008;36(11):2986-2992.
  3. Ganapathy A, Adhikari NK, Spiegelman J, Scales DC. Routine chest x-rays in intensive care units: a systematic review and meta-analysis. Crit Care. 2012;16(2):R68.
  4. Rackley CR, Levitt JE, Zhuo H, Matthay MA, Calfee CS. Clinical evidence of early acute lung injury often precedes the diagnosis of ALI. J Intensive Care Med. 2013;28(4):241-246.
  5. Hejblum G, Ioos V, Vibert JF, et al. A web-based Delphi study on the indications of chest radiographs for patients in ICUs. Chest. 2008;133(5):1107-1112.
  6. Johnson A, Bulgarelli L, Pollard T, et al. (2021) MIMIC-IV (version 1.0). PhysioNet. Available online: https://doi.org/10.13026/s6n6-xd98
  7. Johnson A, Pollard T, Mark R, et al. (2019) MIMIC-CXR Database (version 2.0.0). PhysioNet. Available online: https://doi.org/10.13026/C2JT1Q
  8. Chen T, Xu J, Ying H, et al.: Prediction of extubation failure for intensive care unit patients using light gradient boosting machine. IEEE Access 2019; 7:150960–150968
  9. Tan M, Le QV: Efficientnet: Rethinking model scaling for convolutional neural networks. arXiv. Preprint posted online May 26, 2019. Available at: https://arxiv.org/abs/1905.11946.
  10. Ke G, Meng Q, Finley T, et al.: LightGBM: A highly efficient gradient boosting decision tree. In: Conference Proceedings of the Advances in Neural Information Processing Systems 30 (NIPS 2017). 2017. Available at: https://proceedings.neurips.cc/paper/2017/hash/6449f44a102fde848669bdd9eb6b76fa-Abstract.html
  11. Vickers AJ, Elkin EB: Decision curve analysis: A novel method for evaluating prediction models. Med Decis Making. 2006; 26:565–574
  12. Lundberg SM, Lee S-I: A unified approach to interpreting model predictions. In: Conference Proceedings of the Advances in Neural Information Processing Systems 30 (NIPS 2017). 2017. Available at https://proceedings.neurips.cc/paper/2017/hash/8a20a8621978632d76c43dfd28b67767-Abstract.html.