電子カルテから病気情報を高精度に抽出 日立が欧州の医療技術コンペで1位獲得

2014年09月20日 18:43

 最近では、将来どのような病気を発生するか、の予測が行われるようになってきている。しかし、将来の病気の発症確率予測などを行うには、血液検査結果などの既定フォーマットに入力された情報に加え、医師が記入した電子カルテを分析して得られた情報の活用が必要だ。電子カルテは、医師によってさまざまな表現で記入されるため、必要な医療情報を抽出する技術が必要であり、多くの機関で研究開発が行われている段階である。

 Hitachi India Pvt. Ltd.(日立インド)と日立製作所<6501>は17日、インド情報技術大学ハイデラバード校(IIIT-H)と共同で、電子カルテから病態や病気の部位などの指定された情報を高精度で抽出する技術を開発したと発表した。この技術を応用することで、医師などが自由形式で記入した文章や既定の書式に記入された検査数値など、さまざまな形式が混在する電子カルテの分析が可能となる。これにより、将来の病気の発症確率の予測をはじめ、さらなる医療サービスの高度化が期待されるとしている。

 この成果は、2014年1月から5月にかけて実施された情報検索技術の欧州研究学会CLEFが主催する医療情報抽出技術コンペ「CLEF e-Health 2014 Task2」にて、情報抽出精度86.8%で総合1位を獲得した。このコンペは、多くの医療専門用語を含む電子カルテを患者などが読めるようにすることを目的に2013年から開催されているもの。技術内容によってTask1からTask3に分かれて競われるという。日立インド、日立とIIIT-Hが参加した医療情報抽出精度を競うTask2には、2014年は企業や大学などの10団体が参加した。Task2では、電子カルテから、病気の部位や病態などの医療情報を高精度で抽出する技術が競われ、日立インドと日立、IIIT-Hは抽出精度86.8%で総合1位を獲得した。

 開発された技術は、対象情報の抽出精度を向上させるため、あらかじめ用意した学習データに基づき、電子カルテに記入された情報から答えを判定する規則を自動構築する機械学習手法を導入した。さらに文中の情報に加え、電子カルテの章や節タイトルなどの文書構造に関するテキスト情報も考慮することで精度を向上させた。

 また、機械学習手法で抽出された情報の精度をさらに高めるため、2つの後処理技術を追加。最初の処理では抽出された語句の前後の文脈を考慮することで、より正確な情報に変換する。次の処理では、心電図検査所見や放射線検査所見など、電子カルテの種類を判別し、その種類に適した医療用辞書を用いることで曖昧な単語の意味を決定する。これらの後処理の導入により、機械学習手法だけでは60%だった病気部位の抽出精度を74%にまで向上させることができた。

 日立インドと日立は、今回開発した技術の抽出精度をさらに向上させるとともに、同技術を応用して医療サービスの高度化につながる技術開発を進めていく方針だ。(編集担当:慶尾六郎)