寄稿:後藤 匡啓(MD, MPH, PhD)

福井大学医学部卒業後、同附属病院救急部にて研修。Emergency Medicine Alliance・Japanese Emergency Medicine Networkのコアメンバーとして活動し、JEMNet論文マニュアルを執筆。救急専門医取得後、ハーバード大学公衆衛生大学院修士課程に進学すると同時にマサチューセッツ総合病院救急部にて臨床研究に従事。帰国後は東京大学大学院臨床疫学経済学講座にて研究活動を行い、現在同講座及びTXP Medical社のChief Scientific Officerとしてデータ解析や臨床研究の指導を行っている。

機械学習を用いた臨床研究の急増

ビッグデータ時代になって機械学習を用いた臨床研究が急増しています。最近始めたTwitter(@GtoDr)を見ていても臨床研究者の機械学習系のツイートが多くて驚きました(単に僕がそういう人をフォローしているだけかもしれませんが笑)。機械学習は今後の臨床研究の主軸の一つになっていくことは間違い無いですし、その楽しさや可能性に魅了されている人も多いと思います。僕自身は大学院や研究室で従来の疫学統計学を学んで論文を書き、その中で機械学習に興味を持って予測モデル作成やphenotypingなどの研究を行ってきました。今はTXP Medical社で扱うデータの性質上、自然言語処理と強化学習に課題感を持っていますが、この辺は自分の領域を超えてくるので優秀なインターン達に協力してもらっています。また東大SPH康永研究室の先生方や他の施設の先生方との機械学習を用いた共同研究も増えていて、各研究者が非常に注目しているのを実感しています。

機械学習が何か?を一から語るのはさすがに割愛しますが、機械学習を使った臨床研究は一体何ができるのでしょうか。前回の記事「これからの臨床研究を考える」でも書きましたが、僕自身は研究のデータソースと研究目的によって機械学習の立ち位置は大きく異なると思っています。オミックスデータなどから患者分類やメカニズム同定を行なっていくのか、因果推論の一部として用いるのか、それとも画像やビッグデータで診断・予測を行なっていくのか。

これはいかなる臨床研究の手法でも同様ですが、機械学習が良いとか悪いとか、ロジスティック回帰と結果が変わらないとかそういう話ではなく、なぜ機械学習を用いる必要があるのか?が大事だと思います。僕がAI(機械学習)の論文で非常に興味深いと思った研究は2019年にLancet から出版された論文で、「Sinus rhythmの心電図からlatent AFを同定できる」とする研究です。この論文に関する意見が多々あるのを承知で結果をそのまま受け取ると、①人間には分からなかったsinus rhythmにおけるlatent AFを同定可能、②心電図はどの施設も用いることが可能、③ホルター心電図などの患者負担が軽減される可能性、④見逃されていたAF患者への介入可能性など、これまでの臨床プラクティスと患者アウトカムを大きく変える可能性を秘めており、「AIで予測した」「AIは人間と同程度に診断できた」よりも「AIだから出来たこと」ではないでしょうか。とはいえこのようなnoveltyの高い研究というのはまだ少なく、今のところ画像や強化学習などを除いて従来の回帰分析が担ってきたところの拡張として用いられることが多いのかなと思います。

An artificial intelligence-enabled ECG algorithm for the identification of patients with atrial fibrillation during sinus rhythm: a retrospective analysis of outcome prediction

Lancet. 2019 Sep 7;394(10201):861-867

正直機械学習領域はあまりに発展が速すぎて最先端がどのような状況にあるのかは分かりませんし、最先端のトピックを目にしても恥ずかしながら理解が及びません。ただ機械学習の専門家の知見が臨床領域まで降りてくるには時間がかかりますから、現在の臨床医学雑誌に掲載されている機械学習などを用いた研究はまだなんとか臨床研究者が理解できるレベルでしょうか。臨床医学雑誌では機械学習の性能やモデリングといった話よりもreproducibilityやinterpretability, そして従来の臨床研究フレームにどこまで落とし込めているかの方が重要に思います。ちなみにバイオインフォマティクス系の雑誌やそれこそNeurIPSのような最先端の学会まで行ってしまうと到底追いつけないレベルです。

手法ありきの臨床研究

これは機械学習に限ったことではないのですが、よく見かけるのが「とりあえず機械学習、あるいはこの研究手法を使いたかっただけじゃないの?」という研究で、そのほとんどが診断・予測モデルの研究です。最近は減りましたが、査読依頼が来る論文でもあまりメジャーではない雑誌からの論文はこの傾向にありました。このような「機械学習や難解な手法を用いて研究したかったからでは?」と思うような研究は実は結構多く、目的と手段が入れ替わっているケースですね。そして僕自身もこの経験があります。つまりクリニカルクエスチョンありきでなく、機械学習やオシャレ(?)な研究手法ありきでテーマを探したケースです。とりわけ機械学習に関する予測モデルに関しては2020年のBMJのreviewでもこのように言われていますね。

The vast majority of published clinical prediction models are never used in clinical practice. One reason for this is the lack of a specific clinical decision making process that the model could meaningfully inform or optimise; simply predicting future events on their own might not help a clinician do anything differently (in other words: just because we can, it does not mean we should).

Sebastian Vollmer et al. Machine learning and artificial intelligence research for patient benefit: 20 critical questions on transparency, replicability, ethics, and effectiveness. BMJ 2020;368:l6927.

個人的には手法論ありきで論文を書いてもあまり面白くないというのが本音です。先に述べたように個々の研究として見ると「従来の研究手法では限界があったところを乗り越えられる」かどうか、そして「それは臨床的に大事なことなのか」というのが重要であり、別に機械学習や複雑な手法を使わなくていいのならそれに越したことはなく、研究として考えるならシンプルイズベストだと個人的には思っています。

まあこうは言いつつも、これは大事なことである一方、手法論ありきで論文を書く事自体が悪い事だとは思いません。機械学習に限らず新しい研究手法というのは研究者にとって魅力的ですし、いきなり大事な研究で機械学習をやれと言われてもやれませんから、そういった研究もトレーニングとして大事です。何事も小さな一歩の積み重ねの部分ですね。僕も初期に書いた「とりあえず機械学習を使ってみた」論文がなかったら自分が成長する機会も他の人とコラボレーションする機会をもらえなかったですし、査読者とのやり取りとの中で学んだことも多々あります。そして何より本格的な機械学習エンジニアと組んだ時に彼らと意思疎通をするための基盤や言語を理解しているというのは非常に大事なことだと思います。やはり実績をコツコツ積み重ねるという事が大事なわけで、それが全体として一つの目的に向かっているのが理想なのでしょう。

機械学習のコモディティ化

機械学習の手法自体は既にコモディティ化しており、その傾向はますます加速しています。統計ソフトに変数を入れて「回帰分析」を選べば理論が分からなくても解析してくれるのと同じレベルです。画像にしてもGoogleのAutoMLを用いることでコードを一切書く事なく、平均的なkaggle参加者よりも優れたモデルが組むことが可能であり(kaggleはモデルを組むことよりもデータの捉え方や考え方の方がはるかに重要ですが)、AutoMLを使った論文が既に出ています。もちろん基本なくしてこれらを使っても意味はないのですが、分からなくてもできてしまう時代になっています。

Zeng Y, Zhang J. A machine learning model for detecting invasive ductal carcinoma with Google Cloud AutoML Vision.

Comput Biol Med. 2020 Jul;122:103861.

ちなみに手法論のコモディティ化はとりわけ診断・予測モデルで顕著です。用意されたpackageにテーブルデータを入れることで予測モデルを組むことが誰にでも簡単にできるようになっています。そのように構築されたモデルのinterpretabilityなどの問題はあるかもしれませんが、それもそのうち可視化できるようになるでしょう。こうなると「いかに優れたモデルを作成するのか?」という問いは答えが無いまま延々と同じことを繰り返し続けることになります。そしてlocalizationが可能な機械学習において予測能を最大限にしたuniversal modelはどれだけ価値があるのでしょうか。またlocalizationされてしまうと今度は施設間比較が困難になり、何が優れたモデルになるのでしょうか。これに関連して下記の記事は面白いなと思って読んでました。

「全ての機械学習の論文は新しいアルゴリズムを提案しているのか?」
https://jp.quora.com/全ての機械学習の論文は新しいアルゴリズムを提案/answers/238600075?ch=10&share=ddd970c5&srid=k8yVK

臨床研究は大別して記述研究、因果推論、診断・予測(counterfactual prediction)がありますが、BMJの論文にあったように診断・予測モデルの研究が飽和してくると次はmechanism/causalityに入っていくわけでphenotyping/endotypingからのcausal inferenceや異質性に注目した研究が流行するのは自明でしょう。そして従来の疫学統計学だけでは学びにくい強化学習です。さらには画像・動画・テキスト・音声の複合データから総合的に判断するシステムに繋がるのでしょうか?これらのデータの統合と解析、そして臨床応用は夢であり色々な病院・政府・企業が取り組んでいますが、国内においていまだに成功している例を知りません。この辺はDr.園生のITコラムを読んでいただければわかるかと思います。

AIを用いた研究と臨床現場の乖離

面白いことに、画像解析の研究を手伝った経験があるインターン生や機械学習の研究をしている研修医と話をした時に「画像は(computationalな問題で)大企業に勝てないから因果探索やりたいです」とか「ただの画像研究には臨床学問的なnoveltyが多くない気がしている」という発言を聞いて「うむむ…」と唸りました。これらが正しいかどうかはともかく(画像にもmechanismを考える要素などのnoveltyはあると思います)、まだ医師として本格的に活動する前に研究に参加しこのような感想・考えを持っている点に驚いています。彼らは文字通りAIと共存する新世代なんだなと。しかも彼らはAIそのものが劇的な進化を遂げているにもかかわらず、臨床現場の変化が遅いことも知っています。僕自身も現場と理論との乖離が広がる一方だと感じていますし、おそらく多くの人が思っていることでしょう。おそらくまだchasmを超えていないのでしょうが、ある時急に超えて一気に普及するのだろうとも思います。今後ここを解決していく人たちが必要なのは明らかですし、今現存する「AIを使ったなにか」が一体どれだけの信頼できるエビデンスに基づいているのか?これに答えられる企業も病院も医者も少ないような気がします。

いずれにしても集団に対して普遍的なモデルや介入を考える間は良かったのですが、その概念が変わって個々に対するモデルや介入効果を見れるようなアルゴリズム作成が一般的になるのであれば、最終的にはデータをどうやって集めて利用可能な形式にするのかという点と、その実装のプラットフォームはどうするのか?という問いになります(従来の研究もそうですが)。そうなるとプラットフォームを握ったチームが強いのは当然でしょう。僕はAIそのものをメインにやっていくならAIを開発できるレベルのデータをどうやって自動的に入手するのか?というのと、もし臨床現場に応用するのであればその実装プラットフォームをどうするのか?という物理的な問いからは逃げられないのではないかと思います。もちろん純粋な学問的探究心でmechanismを同定するための手法として用いるのであればデータを入手(作成・購入)してあくまで「目的のための手段である」という方向で研究を続けてことも大事だと思います。

次は研究目的とそれに対応する機械学習についてもう少し具体的に述べていきたいと思います。

(後藤匡啓)

Dr.Gotoの臨床研究コラム

  1. 臨床研究ができる施設とは?
  2. 臨床研究のメンター(前編)
  3. 臨床研究のメンター(後編)
  4. 臨床と臨床研究の兼ね合い
  5. これからの臨床研究を考える