Извлечение симптомов и автоматическое предсказание диагноза по медицинским клиническим записям

Обложка

Цитировать

Полный текст

Аннотация

В статье представлена система, которая извлекает симптомы заболеваний из медицинских клинических записей (текстов на естественном русском языке) и автоматически предсказывает по ним диагноз в виде наименования заболевания и его кода в соответствии со справочником МКБ-10. Система ограничена предметной областью из 6 пульмонологических заболеваний (хроническая обструктивная болезнь легких, пневмония, бронхиальная астма и др.) и COVID-19.Извлечение симптомов реализовано с помощью нескольких нейронных сетей, выделяющих отдельные медицинские сущности и связи между ними. Предсказание диагноза также реализовано в виде классификатора на основе нейронной сети. Для обучения извлечению симптомов создан аннотированный корпус предложений. Описаны принципы и правила разметки симптомов. Представлен корпус текстов для обучения классификатора предсказанию диагнозов.Приведены оценки точности при тестировании обеих подсистем. Точность предсказания диагноза на данной предметной области составила 88,5%. Даны сравнения с аналогичными работами по извлечению симптомов из текстов на различных языках, а также по автоматическому предсказанию диагнозов, включая системы типа ChatGPT.

Об авторах

Юрий Петрович Сердюк

Институт программных систем им. А. К. Айламазяна РАН

Email: Yuri@serdyuk.botik.ru
старший научный сотрудник Исследовательского центра искусственного интеллекта ИПС им. А. К. Айламазяна, научные интересы: параллельное программирование, формальные исчисления процессов, системы типов.

Список литературы

  1. Романов Н. А., Сачек М. М.. «Системы поддержки принятия клинических решений: современное состояние и проблемы», Вопросы организации и информатизациии здравоохранения, 2018, №3, с. 18–25.
  2. Osheroff J. A.. Improving medication use and outcomes with clinical decision support: a step-by-step guide, HIMSS Publishing, 2009, ISBN 9780980069730, 300 pp.
  3. Yalunin A., Nestrov A., Umerenkov D.. RuBioRoBERTa: a pre-trained biomedical language model for Russian language biomedical text mining, 2022, 5 pp.
  4. Blinov P., Avetisian M., Kokh V., Umerenkov D., Tuzhilin A.. “Predicting clinical diagnosis from patients electronic health records usin BERT-based neural networks”, Artificial Intelligence in Medicine: 18th Int. Conf. on Art. Intel. In Medicine, AIME 2020 (Minneapolis, MN, USA, August 25-28, 2020), Lecture Notes in Computer Science, vol. 12299, Springer, Cham, 2020, ISBN 978-3-030-59136-6, pp. 111–121.
  5. Garg R. K., Urs V. L., Agarwal A. A., Chaudhary S. K., Paliwal V., Kar S. K.. “Exploring the role ChatGPT in patient care (diagnosis and treatment) and medical research: a systematic review”, Health Promotion Perspectives, 13:3 (2023), pp. 183–191.
  6. Steinkamp J. M., Bala W., Sharma A., Kantrowitz J. J.. “Task definition, annotated dataset, and supervised natural language processing models for symptom extraction from unstructured clinical notes”, Journal of Biomedical Informatics, 102 (2020), 103354, 9 pp.
  7. Гаврилов Д. В., Кирилкина А. В., Серова Л. М.. «Алгоритм формирования подозрения на новую коронавирусную инфекцию на основе анализа симптомов для использования в системах поддержки принятия врачебных решений», Врач и информационные технологии, 2020, №4, с. 51–58.
  8. Umerenkov D., Zubkova G., Nesterov A.. Deciphering diagnosis: how large language models explanations influence clinical decision making, 2023, 11 pp.
  9. Tutubalina E., Alimova I., Miftahutdinov Z., Sakhovskiy A., Malykh V., Nikolenko S.. “The Russian Drug Reaction Corpus and neural models for drug reactions and effectiveness detection in user reviews”, Bioinformatics, 37:2 (2021), pp. 243–249.
  10. Barile J., Margolis A., Cason G., Kim R., Kalash S., Tchaconas A., Milanaik R.. “Diagnostic accuracy of a large language model in pediatric case studies”, JAMA Pediatrics, 178:3 (2024), pp. 313–315.
  11. Сердюк Ю. П., Власова Н. А., Момот С. Р.. «Система извлечения упоминаний симптомов из текстов на естественном языке с помощью нейронных сетей», Программные системы: теория и приложения, 14:1(56) (2023), с. 95–123.
  12. Shang Yu-M., Huang H., Mao X. L.. “OneRel: Joint entity and relation extraction with one module in one step”, The Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22) (February 22–March 1, 2022, online), Curran Associates, Inc., 2022, ISBN 9781713855743, pp. 11285–11293.
  13. Joshi M., Chen D., Liu Y., Weld D. S., Zettlemoyer L., Levy O.. “SpanBERT: improving pre-training by representing and predicting spans”, Transactions of the Association for Computational Linguistics, 8 (2020), pp. 64–77.
  14. Lybarger K., Ostendorf M., Thompson M., Yetisgen M.. “Extracting COVID-19 diagnoses and symptoms from clinical text: A new annotated corpus and neural event extraction framework”, Journal of Biomedical Informatics, 117 (2021), 103761, 13 pp.
  15. Thirunavukarasu A. J., Ting D. S. J., Elangovan K., Gutierrez L., Tan T. F., Ting D. S. W.. “Large language models in medicine”, Nat. Med, 29:8 (2023), pp. 1930–1940.
  16. Shah N. H., Entwistle D., Pfeffer M. A.. “Creation and adoption of large language models in medicine”, JAMA, 330:9 (2023), pp. 866–869.
  17. Singhal K., Azizi S., Tu T., Mahdavi S. S., Wei J., Chung H. W., Scales N., Tanwani A., Cole-Lewis H., Pfohl S., Payne P., Seneviratne M., Gamble P., Kelly Ch., Babiker A., Schärli N., Chowdhery A., Mansfield Ph., Demner-Fushman D., Agüera y Arcas B., Webster D., Corrado G. S., Matias Y., Chou K., Gottweis J., Tomasev N., Liu Y., Rajkomar A., Barral J., Semturs Ch., Karthikesalingam A., Natarajan V.. “Large language models encode clinical knowledge”, Nature, 620:7972 (2023), pp. 172–180.
  18. Young C. C., Enichen E., Rivera Ch., Auger C. A., Grant N., Rao A., Succi M. D.. “Diagnostic accuracy of a custom large language model on rare pediatric disease case reports”, American Journal of Medical Genetics, Part A, 2024, e63878.
  19. Kanjee Z., Crowe B., Rodman A.. “Accuracy of generative artificial intelligence model in a complex diagnostic challenge”, JAMA, 330:1 (2023), pp. 78–80.
  20. Gargari G. K., Fatehi F., Mohammadi I., Firouzabadi S. R., Shafiee A., Habibi Gh.. “Diagnostic accuracy of large language models in psychiatry”, Asian Journal of Psychiatry, 100 (2024), 104168.
  21. Nielsen M.. Neural networks and deep learning, 2016, free online book URL neuralnetworksanddeeplearning.com.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».