Возможность предсказания вероятности рецидива рака щитовидной железы методами машинного обучения

Обложка

Цитировать

Полный текст

Аннотация

Цель. Разработка модели машинного обучения по предсказанию факта рецидива у пациентов с раком щитовидной железы после проведенного оперативного вмешательства.

Материалы и методы. В соответствии с целью исследования были проанализированы истории болезни 300 пациентов с выполненным оперативным вмешательством по поводу рака щитовидной железы. Средний возраст – 43,54 года. Всем включенным в исследование больным было проведено комплексное обследование согласно клиническим рекомендациям по диагностике и лечению больных РЩЖ. Выбор наиболее подходящей модели в машинном обучении критически важен, так как он напрямую влияет на точность и эффективность предсказания. Отбор лучшей модели был произведен через сравнение производительности различных алгоритмов на одной и той же обучающей выборке с использованием кросс-валидации. Каждая модель оценивалась по метрикам, таким как средняя точность и стандартное отклонение, что позволяет определить, какая из них демонстрирует наилучшие результаты. Лучше всего по показателю средней точности выявила себя модель случайного леса, она же в дальнейшем и использовалась. Обучение модели было произведено по матрице заранее определенных признаков. Используя параметрическую сетку (param_grid), можно эффективно настраивать гиперпараметры, такие как количество деревьев, максимальная глубина и минимальное количество образцов для разделения, что поможет найти оптимальные настройки для нашей задачи. Для подбора гиперпараметров использовался метод RandomizedSearchCV. В процессе поиска гиперпараметров модель обучалась на тренировочных данных, отобранных как 70 % от исходного датасета. Итогом поиска определились следующие лучшие гиперпараметры для модели случайного леса для конкретно наших данных: n_estimators = 161; min_samples_split = 5; max_leaf_nodes = 39; max_depth = 12; bootstrap = True.

Результаты. В ходе исследования была обучена модель, которая продемонстрировала высокую точность целевого признака. Доля пациентов с послеоперационным рецидивом, правильно идентифицированных моделью, составила 98 % от общего числа пациентов с рецидивом, а доля пациентов без рецидива, верно классифицированных моделью «как пациенты, не имеющие риска рецидива», – 95 % от всех пациентов без рецидива. Это свидетельствует, что разработанная модель эффективно справляется с задачей классификации на основе медицинских параметров, что может быть особенно важно для принятия решений в клинической практике. Высокая точность указывает на надежность модели и ее способность правильно идентифицировать случаи рецидива, что может способствовать улучшению диагностики и лечения.

Выводы. В рамках исследования была разработана модель машинного обучения для предсказания высокой вероятности рецидива рака щитовидной железы на основе анализа медицинских параметров. Процесс разработки начался с тщательной предобработки данных, что является критически важным этапом в построении надежных моделей. В ходе предобработки были удалены выбросы и столбцы, содержащие однообразные значения, что позволило улучшить качество данных и избежать искажений в обучении модели. Также была проведена кодировка категориальных переменных, что обеспечило возможность их корректного использования в алгоритмах машинного обучения, и исключены коррелирующие признаки, чтобы минимизировать мультиколлинеарность и повысить интерпретируемость модели.

Об авторах

М. А. Барулина

Пермский государственный национальный исследовательский университет

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0003-3867-648X

доктор физико-математических наук, директор Физико-математического института

Россия, Пермь

И. Ю. Бендик

Пермский государственный национальный исследовательский университет

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0000-7851-9492

магистр I курса Физико-математического института

Россия, Пермь

И. И. Коваленко

Пермский государственный национальный исследовательский университет

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0003-4450-1184

заведующий Центром искусственного интеллекта Физико-математичес­кого института

Россия, Пермь

М. А. Полиданов

Университет «Реавиз»

Автор, ответственный за переписку.
Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0001-7538-7412

советник Российской академии естествознания (РАЕ), специалист научно-исследовательского отдела, ассистент кафедры медико-биологи­ческих дисциплин

Россия, Санкт-Петербург

Р. П. Петрунькин

Университет «Реавиз»

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0003-3206-7920

студент III курса лечебного факультета

Россия, Санкт-Петербург

В. Н. Кудашкин

Самарский государственный медицинский университет

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0001-9099-3517

врач-ординатор кафедры хирургии с курсом сердечно-сосудистой хирургии Института профессионального образования

Россия, Самара

К. А. Волков

Саратовский государственный медицинский университет имени В.И. Разумовского

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0002-3803-2644

студент III курса Института клинической медицины

Россия, Саратов

А. Р. Кравченя

Саратовский государственный медицинский университет имени В.И. Разумовского

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0003-2738-4510

кандидат медицинских наук, доцент, доцент кафедры детских болезней лечебного факультета

Россия, Саратов

В. В. Масляков

Саратовский государственный медицинский университет имени В.И. Разумовского; Медицинский университет «Реавиз»

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0001-6652-9140

доктор медицинских наук, профессор, профессор кафедры мобилизационной подготовки здравоохранения и медицины катастроф, профессор кафедры хирургических болезней

Россия, Саратов; Саратов

С. В. Капралов

Саратовский государственный медицинский университет имени В.И. Разумовского

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0001-5859-7928

доктор медицинских наук, доцент, заведующий кафедрой факультетской хирургии и онкологии

Россия, Саратов

Г. Э. Асланов

Саратовский государственный медицинский университет имени В.И. Разумовского

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0009-9497-5725

студент VI курса Института клинической медицины

Россия, Саратов

Е. В. Лосякова

Самарский государственный медицинский университет

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0003-8286-4266

студент VI курса Института педиатрии

Россия, Самара

И. С. Обухов

Самарский государственный медицинский университет

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0007-5573-8431

студент VI курса Института педиатрии

Россия, Самара

А. Д. Осина

Саратовский государственный медицинский университет имени В.И. Разумовского

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0001-5294-3436

студентка VI курса Института клинической медицины

Россия, Саратов

А. К. Курмаева

Саратовский государственный медицинский университет имени В.И. Разумовского

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0002-0886-6290

студентка VI курса Института клинической медицины

Россия, Саратов

Список литературы

  1. Берштейн Л.М. Рак щитовидной железы: эпидемиология, эндокринология, факторы и механизмы канцерогенеза. Практическая онкология 2007; 8 (1): 1–8 / Berstein L.M. Thyroid cancer: epidemiology, endocrinology, factors and mechanisms of carcinogenesis. Praktical Onkology 2007; 8 (1): 1–8 (in Russian).
  2. Лушников Е.Ф., Цыб А.Ф., Ямасита С. Рак щитовидной железы в России после Чернобыля. М.: Медицина, 2006; 128. / Lushnikov E.F., Tsyb A.F., Yamashita S. Thyroid cancer in Russia after Chernobyl. Moscow: Medicine 2006; 128 (in Russian).
  3. Bentz B.G. et al. B-RAF V600E mutational analysis of fine needle aspirates correlates with diagnosis of thyroid nodules. Otolaryngol. Head Neck Surg. 2009; 140 (5): 709–714.
  4. Барчук А.С. Рецидивы дифференцированного рака щитовидной железы. Практическая онкология. 2007; 8 (1): 35. / Barchuk A.S. Recurrences of differentiated thyroid cancer. Practical Oncology 2007; 8 (1): 35 (in Russian).
  5. Amin M.B., Greene F.L., Edge S.B. et al. The Eighth Edition AJCC Cancer Staging Manual: Continuing to build a bridge from a population-based to a more «personalized» approach to cancer staging. CA Cancer J Clin. 2017; 67 (2): 93–99.
  6. Kane S.M., Mulhern M.S., Pourshahidi L.K. et al. Micronutrients, iodine status and concentrations of thyroid hormones: a systematic review. Nutr Rev. 2018; 76 (6): 418–431.
  7. Agretti P. et al. MicroRNA expression profile helps to distinguish benign nodules from papillary thyroid carcinomas starting from cells of fine-needle aspiration. J. Eur. Endocrinol. 2012; 167 (3): 393–400.
  8. Румянцев П.О., Ильин А.А., Румянцева У.В. и др. Рак щитовидной железы: современные подходы к диагностике и лечению. М.: ГЭОТАР-Медиа 2009; 448. / Rumyantsev P.O., Ilyin A.A., Rumyantseva U.V. et al. Thyroid cancer: modern approaches to diagnosis and treatment. Moscow: GEOTAR-Media 2009; 448 (in Russian).
  9. Bellevicine C. et al. Cytological and molecular features of papillary thyroid carcinoma with prominent hobnail features: a case report. Acta Cytol. 2012; 56 (5): 560–564.
  10. Elisei R. et al. The BRAFV600E mutation is an independent, poor prognostic factor for the outcome of patients with low-risk intrathyroid papillary thyroid carcinoma: single-institution results from a large cohort study. J. Clin. Endocrinol. Metab. 2012; 97 (12): 4390–4398.
  11. Макарьин В.А. Рак щитовидной железы: пособие для пациентов. М. 2016; 168. / Makarin V.A. Thyroid cancer. A manual for patients. Moscow 2016; 168 (in Russian).
  12. Клинические рекомендации. Дифференцированный рак щитовидной железы. Кодирование по Международной статистической классификации болезней ипроблем, связанных со здоровьем: С 73. Возрастная группа: взрослые. М. 2020. / Clinical guidelines. Differentiated thyroid cancer. Coding according to the International Statistical Classification of Diseases and Related Health Problems: С 73. Age group: adults. Moscow 2020 (in Russian).

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Поиск гиперпараметров и обучение модели

Скачать (115KB)
3. Рис. 2. Распределения классов в целевом признаке

Скачать (16KB)
4. Рис. 3. Матрица корреляции признаков

Скачать (307KB)
5. Рис. 4. Распределение классов

Скачать (120KB)
6. Рис. 5. Матрица ошибок

Скачать (121KB)

© Эко-Вектор, 2025


 


Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».