Возможность предсказания вероятности рецидива рака щитовидной железы методами машинного обучения
- Авторы: Барулина М.А.1, Бендик И.Ю.1, Коваленко И.И.1, Полиданов М.А.2, Петрунькин Р.П.2, Кудашкин В.Н.3, Волков К.А.4, Кравченя А.Р.4, Масляков В.В.4,5, Капралов С.В.4, Асланов Г.Э.4, Лосякова Е.В.3, Обухов И.С.3, Осина А.Д.4, Курмаева А.К.4
-
Учреждения:
- Пермский государственный национальный исследовательский университет
- Университет «Реавиз»
- Самарский государственный медицинский университет
- Саратовский государственный медицинский университет имени В.И. Разумовского
- Медицинский университет «Реавиз»
- Выпуск: Том 42, № 3 (2025)
- Страницы: 130-143
- Раздел: Методы диагностики и технологии
- URL: https://bakhtiniada.ru/PMJ/article/view/312905
- DOI: https://doi.org/10.17816/pmj423130-143
- ID: 312905
Цитировать
Полный текст
Аннотация
Цель. Разработка модели машинного обучения по предсказанию факта рецидива у пациентов с раком щитовидной железы после проведенного оперативного вмешательства.
Материалы и методы. В соответствии с целью исследования были проанализированы истории болезни 300 пациентов с выполненным оперативным вмешательством по поводу рака щитовидной железы. Средний возраст – 43,54 года. Всем включенным в исследование больным было проведено комплексное обследование согласно клиническим рекомендациям по диагностике и лечению больных РЩЖ. Выбор наиболее подходящей модели в машинном обучении критически важен, так как он напрямую влияет на точность и эффективность предсказания. Отбор лучшей модели был произведен через сравнение производительности различных алгоритмов на одной и той же обучающей выборке с использованием кросс-валидации. Каждая модель оценивалась по метрикам, таким как средняя точность и стандартное отклонение, что позволяет определить, какая из них демонстрирует наилучшие результаты. Лучше всего по показателю средней точности выявила себя модель случайного леса, она же в дальнейшем и использовалась. Обучение модели было произведено по матрице заранее определенных признаков. Используя параметрическую сетку (param_grid), можно эффективно настраивать гиперпараметры, такие как количество деревьев, максимальная глубина и минимальное количество образцов для разделения, что поможет найти оптимальные настройки для нашей задачи. Для подбора гиперпараметров использовался метод RandomizedSearchCV. В процессе поиска гиперпараметров модель обучалась на тренировочных данных, отобранных как 70 % от исходного датасета. Итогом поиска определились следующие лучшие гиперпараметры для модели случайного леса для конкретно наших данных: n_estimators = 161; min_samples_split = 5; max_leaf_nodes = 39; max_depth = 12; bootstrap = True.
Результаты. В ходе исследования была обучена модель, которая продемонстрировала высокую точность целевого признака. Доля пациентов с послеоперационным рецидивом, правильно идентифицированных моделью, составила 98 % от общего числа пациентов с рецидивом, а доля пациентов без рецидива, верно классифицированных моделью «как пациенты, не имеющие риска рецидива», – 95 % от всех пациентов без рецидива. Это свидетельствует, что разработанная модель эффективно справляется с задачей классификации на основе медицинских параметров, что может быть особенно важно для принятия решений в клинической практике. Высокая точность указывает на надежность модели и ее способность правильно идентифицировать случаи рецидива, что может способствовать улучшению диагностики и лечения.
Выводы. В рамках исследования была разработана модель машинного обучения для предсказания высокой вероятности рецидива рака щитовидной железы на основе анализа медицинских параметров. Процесс разработки начался с тщательной предобработки данных, что является критически важным этапом в построении надежных моделей. В ходе предобработки были удалены выбросы и столбцы, содержащие однообразные значения, что позволило улучшить качество данных и избежать искажений в обучении модели. Также была проведена кодировка категориальных переменных, что обеспечило возможность их корректного использования в алгоритмах машинного обучения, и исключены коррелирующие признаки, чтобы минимизировать мультиколлинеарность и повысить интерпретируемость модели.
Ключевые слова
Полный текст
Открыть статью на сайте журналаОб авторах
М. А. Барулина
Пермский государственный национальный исследовательский университет
Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0003-3867-648X
доктор физико-математических наук, директор Физико-математического института
Россия, ПермьИ. Ю. Бендик
Пермский государственный национальный исследовательский университет
Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0000-7851-9492
магистр I курса Физико-математического института
Россия, ПермьИ. И. Коваленко
Пермский государственный национальный исследовательский университет
Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0003-4450-1184
заведующий Центром искусственного интеллекта Физико-математического института
Россия, ПермьМ. А. Полиданов
Университет «Реавиз»
Автор, ответственный за переписку.
Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0001-7538-7412
советник Российской академии естествознания (РАЕ), специалист научно-исследовательского отдела, ассистент кафедры медико-биологических дисциплин
Россия, Санкт-ПетербургР. П. Петрунькин
Университет «Реавиз»
Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0003-3206-7920
студент III курса лечебного факультета
Россия, Санкт-ПетербургВ. Н. Кудашкин
Самарский государственный медицинский университет
Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0001-9099-3517
врач-ординатор кафедры хирургии с курсом сердечно-сосудистой хирургии Института профессионального образования
Россия, СамараК. А. Волков
Саратовский государственный медицинский университет имени В.И. Разумовского
Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0002-3803-2644
студент III курса Института клинической медицины
Россия, СаратовА. Р. Кравченя
Саратовский государственный медицинский университет имени В.И. Разумовского
Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0003-2738-4510
кандидат медицинских наук, доцент, доцент кафедры детских болезней лечебного факультета
Россия, СаратовВ. В. Масляков
Саратовский государственный медицинский университет имени В.И. Разумовского; Медицинский университет «Реавиз»
Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0001-6652-9140
доктор медицинских наук, профессор, профессор кафедры мобилизационной подготовки здравоохранения и медицины катастроф, профессор кафедры хирургических болезней
Россия, Саратов; СаратовС. В. Капралов
Саратовский государственный медицинский университет имени В.И. Разумовского
Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0001-5859-7928
доктор медицинских наук, доцент, заведующий кафедрой факультетской хирургии и онкологии
Россия, СаратовГ. Э. Асланов
Саратовский государственный медицинский университет имени В.И. Разумовского
Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0009-9497-5725
студент VI курса Института клинической медицины
Россия, СаратовЕ. В. Лосякова
Самарский государственный медицинский университет
Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0003-8286-4266
студент VI курса Института педиатрии
Россия, СамараИ. С. Обухов
Самарский государственный медицинский университет
Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0007-5573-8431
студент VI курса Института педиатрии
Россия, СамараА. Д. Осина
Саратовский государственный медицинский университет имени В.И. Разумовского
Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0001-5294-3436
студентка VI курса Института клинической медицины
Россия, СаратовА. К. Курмаева
Саратовский государственный медицинский университет имени В.И. Разумовского
Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0002-0886-6290
студентка VI курса Института клинической медицины
Россия, СаратовСписок литературы
- Берштейн Л.М. Рак щитовидной железы: эпидемиология, эндокринология, факторы и механизмы канцерогенеза. Практическая онкология 2007; 8 (1): 1–8 / Berstein L.M. Thyroid cancer: epidemiology, endocrinology, factors and mechanisms of carcinogenesis. Praktical Onkology 2007; 8 (1): 1–8 (in Russian).
- Лушников Е.Ф., Цыб А.Ф., Ямасита С. Рак щитовидной железы в России после Чернобыля. М.: Медицина, 2006; 128. / Lushnikov E.F., Tsyb A.F., Yamashita S. Thyroid cancer in Russia after Chernobyl. Moscow: Medicine 2006; 128 (in Russian).
- Bentz B.G. et al. B-RAF V600E mutational analysis of fine needle aspirates correlates with diagnosis of thyroid nodules. Otolaryngol. Head Neck Surg. 2009; 140 (5): 709–714.
- Барчук А.С. Рецидивы дифференцированного рака щитовидной железы. Практическая онкология. 2007; 8 (1): 35. / Barchuk A.S. Recurrences of differentiated thyroid cancer. Practical Oncology 2007; 8 (1): 35 (in Russian).
- Amin M.B., Greene F.L., Edge S.B. et al. The Eighth Edition AJCC Cancer Staging Manual: Continuing to build a bridge from a population-based to a more «personalized» approach to cancer staging. CA Cancer J Clin. 2017; 67 (2): 93–99.
- Kane S.M., Mulhern M.S., Pourshahidi L.K. et al. Micronutrients, iodine status and concentrations of thyroid hormones: a systematic review. Nutr Rev. 2018; 76 (6): 418–431.
- Agretti P. et al. MicroRNA expression profile helps to distinguish benign nodules from papillary thyroid carcinomas starting from cells of fine-needle aspiration. J. Eur. Endocrinol. 2012; 167 (3): 393–400.
- Румянцев П.О., Ильин А.А., Румянцева У.В. и др. Рак щитовидной железы: современные подходы к диагностике и лечению. М.: ГЭОТАР-Медиа 2009; 448. / Rumyantsev P.O., Ilyin A.A., Rumyantseva U.V. et al. Thyroid cancer: modern approaches to diagnosis and treatment. Moscow: GEOTAR-Media 2009; 448 (in Russian).
- Bellevicine C. et al. Cytological and molecular features of papillary thyroid carcinoma with prominent hobnail features: a case report. Acta Cytol. 2012; 56 (5): 560–564.
- Elisei R. et al. The BRAFV600E mutation is an independent, poor prognostic factor for the outcome of patients with low-risk intrathyroid papillary thyroid carcinoma: single-institution results from a large cohort study. J. Clin. Endocrinol. Metab. 2012; 97 (12): 4390–4398.
- Макарьин В.А. Рак щитовидной железы: пособие для пациентов. М. 2016; 168. / Makarin V.A. Thyroid cancer. A manual for patients. Moscow 2016; 168 (in Russian).
- Клинические рекомендации. Дифференцированный рак щитовидной железы. Кодирование по Международной статистической классификации болезней ипроблем, связанных со здоровьем: С 73. Возрастная группа: взрослые. М. 2020. / Clinical guidelines. Differentiated thyroid cancer. Coding according to the International Statistical Classification of Diseases and Related Health Problems: С 73. Age group: adults. Moscow 2020 (in Russian).
Дополнительные файлы
