福井大学医学部卒業後、同附属病院救急部にて研修。Emergency Medicine Alliance・Japanese Emergency Medicine Networkのコアメンバーとして活動し、JEMNet論文マニュアルを執筆。救急専門医取得後、ハーバード大学公衆衛生大学院修士課程に進学すると同時にマサチューセッツ総合病院救急部にて臨床研究に従事。帰国後は東京大学大学院臨床疫学経済学講座にて研究活動を行い、現在同講座及びTXP Medical社のChief Scientific Officerとしてデータ解析や臨床研究の指導を行っている。
twitter:@GtoDr
1. Healthcare AI datathonとは
今回参加したHealthcare AI Datathonはアメリカ・アジア・オーストラリア・ニュージーランドから集めた集中治療におけるBig Dataを活用することを目標にしたフォーラムの一環として開催され、2017年に第一回が日本で行われています(Big Data Machine Learning in Healthcare Conference)。医療分野においてビッグデータをどのように活用するかは非常に注目されていますが、その中でもICUは包括的で豊富なデータを縦断的に獲得することが可能な医療分野のひとつです。このデータソンではハーバードの関連病院であるBeth Israel Deaconess Medical CenterのICUで長年蓄積された匿名化データ(MIMIC)等のビッグデータを用い、ハンズオン形式でマサチューセッツ工科大学、国立シンガポール大学の専門家らから指導を受けることができます。そして実践として医師とデータエンジニアがチームを組んで、各チームがそれぞれ決めた臨床研究テーマに対して分析を行い発表するというコンペティション形式で行われます。
有り体に言うなら「各自でチームを組み、決められたデータセットで一番面白い研究した人が優勝!」でしょうか笑

2. 過去の参加経験
僕は2019年のデータソンに参加経験があり、当時申し込みをしたところ運営側からチームリーダーとしての参加を提案されたため、多少不安になりながらもリーダーとして参加しました。リーダーはコンペのための研究テーマを決める必要があり、事前にいくつか研究案が提示されていたので、ICUにおける抜管失敗の予測モデル作成を選びました。その時はシンガポールのAIエンジニアと東南アジアからのエンジニア3名、それから日本人医療関係者4名ほどのチームでったのですが、東南アジアからのエンジニア3名が途中からどこかに遊びに行ってしまって非常に困った事を今でもよく覚えています。医師側は研究案を考えて提示したのですが、実際のデータ抽出や解析に関しては一人残ったシンガポールのエンジニアがデータ抽出から解析までずっと行ってくれるという申し訳ない状況でした。またこの回では10チームが参加していましたが、残念ながらどのチームも論文化までは行かなかったようです(正直急造のチームで2日ほど解析して結果を出す、では論文化できるクオリティのものが作成できるとは思えませんでしたが…)。
3. メンバー集め
今回、運営側の先生からお声かけいただき再度参加することになりました。国際開催やコロナの影響もあって日本からの参加者はあまり多くなく、最終的に2チームが日本から出場しています。本来データソンは各自で参加してチームに割り振られるのですが、今回は事前にチームを組んで参加可能だったのと、TXPのインターン生にもお声掛けを頂いたので、数名の臨床医とデータ解析班として2名のTXPインターンに声をかけ、そこに運営から割り振られた医師とデータエンジニア合わせて10名ほどのチームで参加しています。正直日本人だけだとメンバー同士の疎通がしやすくで楽でした(国際大会の意義としては微妙かもしれませんが)。データソンでは臨床も研究もある程度わかり、かつ英語で話せる必要があったので、前回の開催時は研究経験が乏しく英語も苦手な日本人参加者は中々発言できずちょっと辛い時間が多かったように思います。
4. テーマ設定とMIMIC データ
データソンでは先ほど簡単に説明したMIMICと呼ばれるデータを主に用います。
https://physionet.org/content/mimiciv/0.4/
MIMICはオープンデータベースで申請すれば誰でも用いることが可能で、4万人以上のICU患者の情報が含まれています(最新版はMIMIC-IV)。このMIMICのデータ自体には以前から興味があったのですが、データ構造が複雑なことやSQLと呼ばれるデータベース言語が扱えないとデータ抽出できないため自分で使うのは避けていました。各患者の連続的なバイタルサインの情報やイベント情報、治療や検査情報が全て記載されているので、データ量が膨大というのは伝わると思います。例えば採血の結果一つ見ても一人の患者に毎日何度か行われていて、それが毎日ある…そして患者によって採血タイミングもバラバラ。EXCELで考えるなら、ひとつ目のEXCELファイルには患者のIDと年齢などがあり、別のEXCELファイルには患者IDに対しての採血情報が詰まっていて…というデータを自分が研究できる形に切り出してくっつけていかないといけないのです。
実際のデータソンでは、このようなデータをどう整理して解析するのかというのが非常に大きな問題になり、そこに多大な労力が必要になるのは見えていたので、下記の点を念頭においていくつか案を出してもらい、その中でデータソンに向いているテーマを選ぶ形になりました。
・できるだけシンプルなアイデア
・実現可能性の高さ(開催時間内に終わる)
・データソンという特性上、画像などを用いた方が受けが良さそう
いくつか面白い案が出たのですが、feasibilityと面白さの両立が難しく、最終的に抜管失敗を予測するのにテーブルデータと画像を用いてはどうかというテーマになりました。個人的には「前回と同じようなテーマになったな」と思いましたが、画像を使うのはデータ解析班からもやってみたいという声があったため、このテーマに決定しました。一点臨床的に面白いとすれば、画像なしのモデルと画像を入れたモデルで予測性能が変わらなければそれは臨床的にも納得できるし、choosing wislyの方向に議論できるのでは?という点です。これは正確には「差がない=同等」ではないですし、そもそも臨床判断の比較をしていないことやモデルの作成能力などの問題があるのですが、それでも予測能を両方示すのはデータソン的にやってみたいという事でまとまりました。本当は時系列での画像解析を行いたかったのですが、データを実際に触ってみると欠損などいくつかの問題点があったため、今回はとりあえず抜管直前のデータのみを用いました。
5. 研究計画書策定とデータ解析方針の決定
テーマが決まったら研究計画書を書くのが当然なので、数枚ほどの計画書を発案者と一緒に策定し、チームメンバーに見てもらい推敲を行いました。やりとりはSlackを用いています。本当はデータソン当日に行うのが筋ですが、主催者側の許可があったのと前回の経験からそれだと間に合わないことが予想されたのであらかじめ少しずつ動き出していました(データ自体は触れませんでしたが)。
問題点は臨床医側は研究経験(機械学習含む)のある医療者とそうでない医療者とで差があること、そしてデータ解析班も同様にモチベーションやスキルに差があることで、これは事前に予想していた通りでした。各自に能動的に参加していただくため、臨床医にはできるだけ臨床視点から「どういうモデルが良いか」「どういう予測因子が臨床的に重要か」を考える事をファシリテートし、臨床研究経験のある医師には「実現可能性はありそうか」「変数が実際にあるか、その妥当性はどうか」などを検討してもらいました。データ解析班にはデータ抽出担当と解析担当を決めてもらい、開発環境の確認などを主催者側に聞いて確認を取っていました。また今回はMIMIC使用経験のある医師が参加してくれていたため非常に助かっています。
6. 本番当日からの流れ
当日はオリエンテーションの後みんなでzoomでキックオフミーティングを行いました。事前の研究計画書に合わせてデータ解析班がSQLでデータを取得するのですが、データ欠損や研究対象集団の設定、抜管失敗の定義付けや時間の抜き出しなど事前に予定していたものと実際に行うのではやはり違い、SQLで研究対象集団と必要な予測因子を抜き出すのに想像以上に時間がかかりました。この辺の予想とずれていた点は今回の反省点で、見通しが甘かったです。
結局データ抽出をメインで担当してくれたインターン生がほぼ徹夜でデータを抽出してくれた後、臨床医がそのデータ内における予測因子の定義・分布などを再度確認し、最終的にもう一人のインターン生がそこから徹夜でモデル作成と画像解析を行ってくれました(彼は東大や理研などで機械学習を用いた画像解析経験あり)。この解析プロセスでも反省点があり、時間が無かったためtraining, validation, test setsをどのように設定するかやモデルの比較をどうするか等での意思疎通が十分に行えておらず、最後の解析段階で解決すべき点がいくつか出てきました。この辺は臨床研究がベースにある研究者と機械学習を用いることに特化した二者間での相違が悪い方向で出てしまったと思います。臨床研究者と機械学習エンジニアのコラボレーションでは、事前にここを十分にすり合わせておくことが大事なので意識していたつもりでしたが不十分でした。結局、暫定的な結果が出たのが締め切り30分前というタイミングだったので、そこからスライドを作成して5分間の音声入りのプレゼン動画を作成するするという突貫工事でした。
最終的にはICUで挿管された患者全てを対象とし、72時間以内の再挿管を予測するモデルを構築したところ、胸部レントゲンありなしで有意差なしという結果になりました。
7. 結果発表
正直、あまりにギリギリだったのと全体の予測能が思わしくなかったことから微妙かなと思ったのですが、幸いなことにFinalistに選出され、読者投票では1票差の2位でした。おそらく「ただ予測するだけ」ではなく、通常のテーブルデータを用いたモデルとそれに画像を加えることで予測能の大幅な改善が見られるかどうかというテーマに興味を持ってもらえたのかなと思います。優勝チームは Best Antibiotics Empiricallyというテーマでしたが、プレゼンも内容もとても2日間とは思えないので、各チーム事前の事前準備の差が出た気がします。また流行は強化学習に(当然ながら)移っているなと感じました。
今回はfinalist awardというひとつの結果を出すことができましたが、大事な事はこの結果を次の研究に繋げて、世の中に新たな知見を生み出すことだと思っています。非常に素晴らしいメンバーに感謝しつつ、どんどん臨床研究を盛り上げていきたいと思います。

▼ Dr.Gotoの臨床研究コラム