Possibility of predicting the probability of thyroid cancer recurrence by machine learning methods

Cover Page

Cite item

Full Text

Abstract

Objective. To develop a machine learning model for predicting the fact of recurrence in patients with thyroid cancer after surgical intervention.

Materials and Methods. According to the aim of the study, the case histories of 300 patients who had undergone surgical intervention for thyroid cancer were analyzed. The average age was 43.54 years. All patients included in the study underwent a comprehensive examination according to the clinical recommendations on the diagnosis and treatment of patients with thyroid cancer. Selection of the most appropriate model in machine learning is critical as it directly affects the accuracy and efficiency of prediction. Selection of the best model was done through comparing the performance of different algorithms on the same training sample using cross-validation. Each model was evaluated on such metrics as average accuracy and standard deviation to determine which model demonstrates the best results.  The random forest model performed best in terms of average accuracy and was used hereafter. The model was trained using a matrix of predefined features. Using param grid, we can efficiently adjust hyperparameters such as the number of trees, maximum depth and minimum number of samples for separation, which will help us to find the optimal settings for our task. RandomizedSearchCV method was used to select the hyperparameters. During the hyperparameter search process, the model was trained on training data selected as 70% of the original dataset. The search resulted in the following best hyperparameters for the random forest model for our data specifically: n_estimators = 161; min_samples_split = 5; max_leaf_nodes = 39; max_depth = 12; bootstrap = True.

 Results. A model that demonstrated high target feature accuracy was trained during the study. The proportion of patients with postoperative recurrence correctly identified by the model was 98 % of all patients with recurrence, and the proportion of patients without recurrence correctly classified by the model «as patients at no risk of recurrence» was 95 % of all patients without recurrence. This shows that the developed model effectively handles the task of classification based on medical parameters, which may be particularly important for decision making in clinical practice. The high accuracy indicates the reliability of the model and its ability to identify cases of recurrence correctly, this may contribute to the improvement of diagnostics and treatment.

Conclusions. A machine learning model to predict a high probability of thyroid cancer recurrence based on the analysis of medical parameters was developed while carrying out the study. The development process began with careful data preprocessing, which is a critical step in reliable models’ construction. During preprocessing, outliers and columns containing monotonic values were removed to improve the data quality and avoid distortions in the model training. Categorical variables were also coded to ensure that they could be used correctly in machine learning algorithms, and correlated features were excluded to minimize multicollinearity and increase the interpretability of the model.

About the authors

M. А. Barulina

Perm State National Research University

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0003-3867-648X

DSc (Physics and Mathematics), Director of the Institute of Physics and Mathematics

Russian Federation, Perm

I. Yu. Bendik

Perm State National Research University

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0000-7851-9492

1st-year Master's Student of the Institute of Physics and Mathematics

Russian Federation, Perm

I. I. Kovalenko

Perm State National Research University

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0003-4450-1184

Head of the Center for Artificial Intelligence of the Institute of Physics and Mathematics

Russian Federation, Perm

М. A. Polidanov

University «Reaviz»

Author for correspondence.
Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0001-7538-7412

Advisor to the Russian Academy of Natural Sciences (RANS), Research Department Specialist, Assistant of the Department of Biomedical Disciplines

Russian Federation, Saint Petersburg

R. P. Petrunkin

University «Reaviz»

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0003-3206-7920

3rd-year Student of the Faculty of Medicine

Russian Federation, Saint Petersburg

V. N. Kudashkin

Samara State Medical University

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0001-9099-3517

Resident of the Department of Surgery with a Course in Cardiovascular Surgery of the Institute of Professional Education

Russian Federation, Samara

K. А. Volkov

Saratov State Medical University named after V.I. Razumovsky

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0002-3803-2644

3rd-year Student of the Institute of Clinical Medicine

Russian Federation, Saratov

A. R. Kravchenya

Saratov State Medical University named after V.I. Razumovsky

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0003-2738-4510

PhD (Medicine), Associate Professor, Associate Professor of the Department of Pediatric Diseases of the Faculty of Medicine

Russian Federation, Saratov

V. V. Maslyakov

Saratov State Medical University named after V.I. Razumovsky; Medical University «Reaviz»

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0001-6652-9140

DSc (Medicine), Professor, Professor of the Department of Mobilization Preparation of Healthcare and Disaster Medicine, Professor of the Department of Surgical Diseases

Russian Federation, Saratov; Saratov

S. V. Kapralov

Saratov State Medical University named after V.I. Razumovsky

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0000-0001-5859-7928

DSc (Medicine), Associate Professor, Head of the Department of Faculty Surgery and Oncology

Russian Federation, Saratov

H. E. Aslanov

Saratov State Medical University named after V.I. Razumovsky

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0009-9497-5725

6th-year Student of the Institute of Clinical Medicine

Russian Federation, Saratov

Ye. V. Losyakova

Samara State Medical University

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0003-8286-4266

6th-year Student of the Institute of Pediatrics

Russian Federation, Samara

I. S. Obukhov

Samara State Medical University

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0007-5573-8431

6th-year Student of the Institute of Pediatrics

Russian Federation, Samara

A. D. Osina

Saratov State Medical University named after V.I. Razumovsky

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0001-5294-3436

6th-year Student of the Institute of Clinical Medicine

Russian Federation, Saratov

A. K. Kurmaeva

Saratov State Medical University named after V.I. Razumovsky

Email: maksim.polidanoff@yandex.ru
ORCID iD: 0009-0002-0886-6290

6th-year Student of the Institute of Clinical Medicine

Russian Federation, Saratov

References

  1. Берштейн Л.М. Рак щитовидной железы: эпидемиология, эндокринология, факторы и механизмы канцерогенеза. Практическая онкология 2007; 8 (1): 1–8 / Berstein L.M. Thyroid cancer: epidemiology, endocrinology, factors and mechanisms of carcinogenesis. Praktical Onkology 2007; 8 (1): 1–8 (in Russian).
  2. Лушников Е.Ф., Цыб А.Ф., Ямасита С. Рак щитовидной железы в России после Чернобыля. М.: Медицина, 2006; 128. / Lushnikov E.F., Tsyb A.F., Yamashita S. Thyroid cancer in Russia after Chernobyl. Moscow: Medicine 2006; 128 (in Russian).
  3. Bentz B.G. et al. B-RAF V600E mutational analysis of fine needle aspirates correlates with diagnosis of thyroid nodules. Otolaryngol. Head Neck Surg. 2009; 140 (5): 709–714.
  4. Барчук А.С. Рецидивы дифференцированного рака щитовидной железы. Практическая онкология. 2007; 8 (1): 35. / Barchuk A.S. Recurrences of differentiated thyroid cancer. Practical Oncology 2007; 8 (1): 35 (in Russian).
  5. Amin M.B., Greene F.L., Edge S.B. et al. The Eighth Edition AJCC Cancer Staging Manual: Continuing to build a bridge from a population-based to a more «personalized» approach to cancer staging. CA Cancer J Clin. 2017; 67 (2): 93–99.
  6. Kane S.M., Mulhern M.S., Pourshahidi L.K. et al. Micronutrients, iodine status and concentrations of thyroid hormones: a systematic review. Nutr Rev. 2018; 76 (6): 418–431.
  7. Agretti P. et al. MicroRNA expression profile helps to distinguish benign nodules from papillary thyroid carcinomas starting from cells of fine-needle aspiration. J. Eur. Endocrinol. 2012; 167 (3): 393–400.
  8. Румянцев П.О., Ильин А.А., Румянцева У.В. и др. Рак щитовидной железы: современные подходы к диагностике и лечению. М.: ГЭОТАР-Медиа 2009; 448. / Rumyantsev P.O., Ilyin A.A., Rumyantseva U.V. et al. Thyroid cancer: modern approaches to diagnosis and treatment. Moscow: GEOTAR-Media 2009; 448 (in Russian).
  9. Bellevicine C. et al. Cytological and molecular features of papillary thyroid carcinoma with prominent hobnail features: a case report. Acta Cytol. 2012; 56 (5): 560–564.
  10. Elisei R. et al. The BRAFV600E mutation is an independent, poor prognostic factor for the outcome of patients with low-risk intrathyroid papillary thyroid carcinoma: single-institution results from a large cohort study. J. Clin. Endocrinol. Metab. 2012; 97 (12): 4390–4398.
  11. Макарьин В.А. Рак щитовидной железы: пособие для пациентов. М. 2016; 168. / Makarin V.A. Thyroid cancer. A manual for patients. Moscow 2016; 168 (in Russian).
  12. Клинические рекомендации. Дифференцированный рак щитовидной железы. Кодирование по Международной статистической классификации болезней ипроблем, связанных со здоровьем: С 73. Возрастная группа: взрослые. М. 2020. / Clinical guidelines. Differentiated thyroid cancer. Coding according to the International Statistical Classification of Diseases and Related Health Problems: С 73. Age group: adults. Moscow 2020 (in Russian).

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Fig. 1. Search for hyperparameters and training the model

Download (115KB)
3. Fig. 2. Distributions of classes in the target feature

Download (16KB)
4. Fig. 3. Correlation matrix of features

Download (307KB)
5. Fig. 4. Class distribution

Download (120KB)
6. Fig. 5. Error matrix

Download (121KB)

Copyright (c) 2025 Eco-Vector


 


Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».