Модели и методы глубокого обучения в задачах распознавания и классификации медицинских изображений
- Авторы: Пшенокова И.А.1,2, Киясов М.Р.2
-
Учреждения:
- Институт информатики и проблем регионального управления – филиал Кабардино-Балкарского научного центра Российской академии наук
- Кабардино-Балкарский государственный университет имени Х. М. Бербекова
- Выпуск: Том 27, № 2 (2025)
- Страницы: 103-112
- Раздел: Информатика и информационные процессы
- URL: https://bakhtiniada.ru/1991-6639/article/view/294392
- DOI: https://doi.org/10.35330/1991-6639-2025-27-2-103-112
- EDN: https://elibrary.ru/PFILQX
- ID: 294392
Цитировать
Полный текст
Аннотация
В работе проведены исследование и анализ моделей и методов глубокого обучения в задачах распознавания и классификации изображений опухолей мозга. Для сравнения эффективности наиболее актуальных и доступных моделей на основе сверточных нейронных сетей были выбраны модели VGG19, Xception и ResNet152. Наилучшие результаты показала модель Xception. Целью данной работы являются оптимизация и обучение выбранной модели с помощью различных методов для повышения точности диагностики опухолей головного мозга человека. Предложена и реализована стратегия для улучшения этой модели с использованием методов переноса обучения и аугментации данных. Из проведенных тестов следует, что улучшенная модель демонстрирует более высокую точность и устойчивость к различным видам искажений данных, что делает ее более эффективной для задач распознавания и классификации изображений.
Полный текст
Введение
Технологии распознавания и классификации изображений являются неотъемлемой частью многих отраслей экономики, таких как медицина, автомобилестроение, системы безопасности и развлечения. Методы распознавания позволяют автоматизировать такие процессы, как извлечение информации, распознавание объектов и лиц, сжатие изображений, медицинская визуализация, а также повышать их эффективность.
Распознавание изображений – это область компьютерного зрения и машинного обучения, сосредоточенная на идентификации и классификации объектов в изображениях и видео. Поскольку объем визуальной информации растет с каждым годом, необходимо разрабатывать новые или улучшать имеющиеся методы их обработки.
Традиционные методы распознавания изображений включают в себя различные алгоритмы и техники, которые использовались до широкого распространения глубокого обучения. Их можно подразделить на несколько категорий: методы, основанные на извлечении признаков (SIFT, SURF, HOG и LBP), методы классификации (метод опорных векторов, k-means и деревья решений) и классические алгоритмы (гистограммное выравнивание, фильтрация и сегментация). Однако так как эти методы основываются на ручном анализе, они становятся все менее эффективными в условиях больших данных. Актуальность данной работы обусловлена растущими требованиями к автоматизации анализа визуальной информации и необходимостью разработки более современных, точных и устойчивых моделей, способных работать в условиях реального времени и с разнообразными типами данных.
Глубокое обучение и нейронные сети произвели революцию в области распознавания изображений, обеспечивая значительные улучшения в точности и эффективности по сравнению с классическими методами [1]. Основные методы и архитектуры, используемые в этой области, приведены на рисунке 1.
Рис. 1. Методы глубокого обучения в распознавании изображений
Fig. 1. Deep learning methods in image recognition
Как видно из рисунка, существует множество подходов к распознаванию и классификации визуальной информации, однако основными являются сверточные нейронные сети (CNN), которые эффективно обрабатывают изображения благодаря своей архитектуре (рис. 2), позволяющей выявлять пространственные и временные зависимости [2].
Рис. 2. Архитектура сверточной нейронной сети
Fig. 2. Architecture of a convolutional neural network
Сверточный слой является основным элементом и выполняет свертку входных данных, выделяя важные характеристики изображения на различных уровнях абстракции, такие как края, текстуры или формы. Далее данные поступают на слой подвыборки, который за счет сохранения наиболее значимых признаков уменьшает размерность выходных данных, сокращая при этом вычислительные затраты. Выходы слоя подвыборки нормализуются для каждого пакета данных, что позволяет уменьшить влияние изменений в распределении данных и способствует эффективному и быстрому обучению модели. В завершающей части сети данные передаются в полносвязный слой, где каждый нейрон соединен со всеми нейронами предыдущего слоя. Этот слой отвечает за окончательную классификацию или регрессионный анализ на основе извлеченных признаков.
Сверточные нейронные сети для анализа медицинских изображений
Сверточная нейронная сеть является одним из наиболее широко используемых методов в области медицинских изображений, особенно в области анализа медицинских изображений.
Идентификация изображений была одной из первых областей анализа медицинской визуализации. Качественный и количественный анализ изображений, выполненный методами глубокого обучения, играет незаменимую роль в медицинской диагностике для клинической терапии [3, 4]. Кроме того, использование машинного обучения для сегментации медицинских изображений может эффективно помочь врачам подтвердить размер пораженных опухолей, количественно оценить эффект до и после лечения, снизив нагрузку на врачей [5].
Преимущество глубокого обучения, особенно глубоких сверточных сетей [6], заключается в том, что функция ручного сбора данных может быть заменена эффективными алгоритмами неконтролируемого или полуконтролируемого обучения признаков и иерархического извлечения признаков. Так, в работах [7, 8, 9] представлены преимущества сверточных нейронных сетей при диагностике заболеваний на основе классификации и сегментации МРТ- и КТ-изображений головного мозга и рентгеновских изображений легких, в частности, задачи, в которых была изучена диагностическая и прикладная ценность модели глубокого обучения. Методы глубокого обучения обучают модель слиянию с хорошей способностью к обобщению на основе большого объема данных, что может сделать процесс слияния более надежным и преодолеть недостатки ручного выбора функций, такие как дороговизна, трудоемкость и подверженность человеческим ошибкам.
Разница между сверточной нейронной сетью (СНС) и традиционными полносвязными нейронными сетями состоит в способности захватывать корреляционные пространственно-временные зависимости в данных, что позволяет эффективно обрабатывать изображения и выделять локальные особенности [10].
Существует множество моделей сверточных нейронных сетей, широко используемых для решения задач распознавания и классификации медицинских изображений. Так, в [11] представлен алгоритм классификации МРТ мелких сосудов головного мозга с использованием сверточной нейронной сети. В [12] авторы разработали многопоточную глубокую сверточную нейронную сеть для классификации стабильных легких когнитивных нарушений для ранней диагностики болезни Альцгеймера.
Авторы в [13] представили новую модель, которая объединила глубокие сверточные сети с байесовским алгоритмом для прогнозирования и классификации опухолей головного мозга для изображений МРТ.
Интеграция модулей внимания со сверточными сетями представлена в [14] для неиерархического анализа медицинских изображений (задачи оценки деменции, классификация расстройств мозга и классификация опухолей мозга).
В работе [15] разработали новую остаточную нейронную сеть для классификации инсульта. Авторами проведена количественная оценка предложенного метода в трех различных слоях.
В [16] проведены компьютерные исследования эффективности применения методов переноса глубокого обучения для решения задачи распознавания опухолей головного мозга человека на основе его МРТ-снимков. Авторами предложены различные стратегии глубокого обучения и тонкой настройки моделей на основе глубоких сверточных сетей.
В настоящей работе мы рассмотрим наиболее актуальные и доступные СНС, в частности, VGGNet, Xception, и ResNet [17].
VGGNet известна своей глубиной, достигающей до 19 слоев, и использованием сверточных слоев с небольшими фильтрами размером 3 × 3. Архитектура акцентирует внимание на простоте и повторяемости структуры, что делает ее удобной для понимания и реализации [18]. Однако из-за своей глубокой структуры VGGNet имеет высокую вероятность переобучения и может демонстрировать длительное время предсказания.
Xception является улучшенной версией Inception и использует глубинные сепарабельные свертки. Эти свертки разбивают стандартную свертку на две части: сначала применяется свертка по глубине (с ядром 1 × 1), а затем свертка по пространству (с ядром 3 × 3). Это позволяет значительно уменьшить количество параметров и вычислительные затраты.
ResNet ввела концепцию остаточных соединений, что позволило создавать очень глубокие сети без проблем затухания градиентов [19]. Однако с увеличением количества слоев также возрастает сложность подбора гиперпараметров и требуются значительные вычислительные ресурсы и память для глубоких моделей.
Сравним эффективность этих моделей. Для сравнения были выбраны следующие версии ранее описанных моделей: VGG19, Xception и ResNet152.
Моделям предоставляются изображения, на которых изображены различные виды опухолей мозга, а также изображения, не содержащие опухолей. Эти данные организованы в папки, каждая из которых содержит множество изображений в формате JPG, соответствующих определенным классам: «glioma», «meningioma», «pituitary» и «notumor». Поскольку выбранные модели доступны, достаточно просто импортировать их через соответствующие библиотеки и обучить на тренировочных данных для последующего тестирования. Обучение и тестирование проводились с использованием одинаковых названий папок, но с разным содержимым, которые были взяты с сайта Kaggle [20]. В качестве платформы использовалась Google Colab, так как обучение моделей потребует значительных ресурсов.
Результаты тестирования моделей по классам представлены в таблице 1.
Таблица 1. Результаты тестирования моделей VGG19, Xception, ResNet152 по классам
Table 1. Test results of VGG19, Xception, ResNet152 models by classes
Модель | Общее количество изображений | Количество обработанных изображений класса | Процент обнаружений класса |
Класс «glioma» | |||
VGG19 | 300 | 157 | 52,33% |
Xception | 300 | 232 | 77,33% |
ResNet152 | 300 | 134 | 44,67% |
Класс «meningioma» | |||
VGG19 | 306 | 9 | 2,94% |
Xception | 306 | 180 | 58,82% |
ResNet152 | 306 | 115 | 44,67% |
Класс «pituitary» | |||
VGG19 | 300 | 260 | 86,67% |
Xception | 300 | 277 | 92,33% |
ResNet152 | 300 | 180 | 60% |
Класс «notumor» | |||
VGG19 | 405 | 369 | 91,11% |
Xception | 405 | 389 | 96,05% |
ResNet152 | 405 | 263 | 64,94% |
Из таблицы видно, что модель VGG19 показала средний результат на папке «glioma», но с папкой «meningioma» справилась очень плохо. Однако смогла правильно классифицировать почти все изображения из папки «notumor». С последней папкой модель справилась немного хуже, чем с предыдущей, правильно распознав 260 из 300 фотографий. Модель VGG19 показала наилучший результат на папке «notumor», достигнув 91,11 % точности обнаружения, в то время как наихудший результат был зафиксирован на папке «meningioma» с процентом обнаружения 2,94 %.
Модель Xception показала хороший результат на папке «glioma». На папке «meningioma» модель показала средний результат, правильно распознав почти 60 % изображений. С папкой «notumor» модель справилась почти идеально и показала отличный результат с последней папкой. Модель Xception показала наилучший результат на папке «notumor», достигнув 92,33 % правильного распознавания. Наихудший результат был получен в папке «meningioma» с процентом правильного распознавания 58,82 %.
Модель ResNet152 смогла правильно обнаружить чуть меньше половины изображений из папки «glioma», с папкой «meningioma» модель справилась немного хуже, на папке «notumor» был получен результат немного выше среднего – 64,94 %, и с последней папкой модель справилась немного хуже, чем с предыдущей, распознав 180 изображений из 300. Наилучший результат модель ResNet152 показала с папкой «notumor», достигнув 64,94 % обнаружения, в то время как наихудший результат был зафиксирован с папкой «meningioma» – 37,58 %.
Таким образом, за счет разбивки стандартной свертки на две части по глубине и пространству и значительного уменьшения количества обрабатываемых параметров среди всех моделей лучший процент обнаружений класса показала модель Xception.
Целью данной работы являются оптимизация и обучение выбранной модели с помощью различных методов для повышения точности диагностики опухолей головного мозга человека.
Улучшение модели распознавания и классификации изображений
Используем метод переноса обучения в распознавании изображений. В качестве базовой модели классификации будем использовать предобученную модель Xception, в которой заморозим первые 70 слоев. Под операцией заморозки понимается процедура фиксации значений весов сверточных слоев таким образом, что они не будут обновляться во время обучения модели, что позволяет модели лучше адаптироваться к отобранным данным, при этом учитывая информацию, которая была использована на этапе обучения предобученной модели. Остальные слои остаются доступны для обучения на отобранных данных. Далее добавляются новые слои с функцией активации «softmax» с указанием необходимого числа классов, специально предназначенные для обработки изображений на основе имеющихся данных.
Затем модель компилируется с использованием оптимизатора Аdam, задается функция потерь categorical_crossentropy и определяется метрика accuracy для оценки точности.
Затем для аугментации данных используем ImageDataGenerator. В этом объекте задаются различные параметры аугментации, такие как изменение масштаба, вращение, сдвиги по ширине и высоте, сдвиг по углу, масштабирование и горизонтальное отражение изображений. Эти методы помогают модели лучше обрабатывать изображения и улучшают ее способность к обобщению. Далее указываем путь к папке, содержащей данные для обучения, задаем размеры изображений для модели, размер батча для итераций обучения и класс данных «categorical». Чтобы избежать переобучения, используем метод обратного вызова EarlyStopping с соответствующими параметрами.
После завершения настройки сети и работы с программой запускается процесс обучения. Обучение построенной модели проводилось с функцией потерь «categorical_crossentropy» и показателем точности accuracy. Начальная скорость обучения была установлена равной 1e−4, модель обучалась в течение 32 эпох с параметром batch size = 32. По окончании обучения получается следующий результат (рис. 3).
Рис. 3. Результат обучения модели
Fig. 3. Model training result
Тестирование полученной модели и анализ результатов
После завершения обучения модель была протестирована на тренировочных данных.
Сравнительные результаты тестирования приведены в таблице 2.
Таблица 2. Результаты тестирования предобученной модели Xception и ее улучшенной версии
Table 2. Test results of the pre-trained Xception model and its improved version
Модель | Общее количество изображений | Количество обработанных изображений класса | Процент обнаружений класса |
Класс «glioma» | |||
Xception | 300 | 232 | 77,33% |
Улучшенная модель | 300 | 298 | 99,33% |
Класс «meningioma» | |||
Xception | 306 | 180 | 58,82% |
Улучшенная модель | 306 | 234 | 76,47% |
Класс «pituitary» | |||
Xception | 300 | 277 | 92,33% |
Улучшенная модель | 300 | 292 | 97,33% |
Класс «notumor» | |||
Xception | 405 | 389 | 96,05% |
Улучшенная модель | 405 | 405 | 100% |
Из проведенных тестов предобученной модели Xception и ее улучшенной версии следует, что улучшенная модель демонстрирует более высокую точность и устойчивость к различным видам искажений данных, что делает ее более эффективной для задач классификации изображений.
Заключение
В рамках работы были проведены исследование и анализ моделей распознавания и классификации изображений в области медицины. После сравнения наиболее актуальных и доступных моделей на основе сверточных нейронных сетей была выбрана модель Xception, показавшая наилучшие результаты. Эта модель была улучшена с использованием методов переноса обучения и аугментации данных для повышения точности диагностики опухолей головного мозга человека. Из проведенных тестов следует, что улучшенная модель демонстрирует более высокую точность и устойчивость к различным видам искажений данных, что делает ее более эффективной для задач распознавания и классификации изображений.
Финансирование. Исследование проведено без спонсорской поддержки.
Funding. The study was performed without external funding.
Вклад авторов: все авторы сделали эквивалентный вклад в подготовку публикации. Авторы заявляют об отсутствии конфликта интересов.
Contribution of the authors: the authors contributed equally to this article. The authors declare no conflict of interest.
Об авторах
Инна Ауесовна Пшенокова
Институт информатики и проблем регионального управления – филиал Кабардино-Балкарского научного центра Российской академии наук; Кабардино-Балкарский государственный университет имени Х. М. Бербекова
Автор, ответственный за переписку.
Email: pshenokova_inna@mail.ru
ORCID iD: 0000-0003-3394-7682
SPIN-код: 3535-2963
канд. физ.-мат. наук, зав. лаб. «Интеллектуальные среды обитания»; доцент кафедры «Компьютерные технологии и информационная безопасность»
Россия, ул. И. Арманд, 37а, Нальчик, 360000; ул. Чернышевского, 173, Нальчик, 360004Мурат Русланович Киясов
Кабардино-Балкарский государственный университет имени Х. М. Бербекова
Email: myrat7450@mail.ru
студент 4-го курса направления «Информатика и вычислительная техника»
Россия, ул. Чернышевского, 173, Нальчик, 360004Список литературы
- Bishop C.M. Pattern recognition and machine learning (Information Science and Statistics). Springer. New York. 2007. ISBN: 0-387-31073-8
- Li Z. et al. A survey of convolutional neural networks: analysis, applications, and prospects. IEEE transactions on neural networks and learning systems. 2021. Vol. 33. No. 12. Pp. 6999–7019. doi: 10.1109/TNNLS.2021.3084827
- Byra M. et al. Breast mass classification in sonography with transfer learning using a deep convolutional neural network and color conversion. Medical physics. 2019. Vol. 46. No. 2. Pp. 746–755. doi: 10.1002/mp.13361
- Horiuchi Y. et al. Convolutional neural network for differentiating gastric cancer from gastritis using magnified endoscopy with narrow band imaging. Digestive diseases and sciences. 2020. Vol. 65. Pp. 1355–1363. doi: 10.1007/s10620-019-05862-6
- Wang J. et al. Integral real-time locomotion mode recognition based on GA-CNN for lower limb exoskeleton. Journal of Bionic Engineering. 2022. Vol. 19. No. 5. Pp. 1359–1373. doi: 10.1007/s42235-022-00230-z
- Bhandari D., Paul S., Narayan A. Deep neural networks for multimodal data fusion and affect recognition. International Journal of Artificial Intelligence and Soft Computing. 2020. Vol. 7. No. 2. Pp. 130–145. doi: 10.1504/IJAISC.2020.113475
- Srivastava A., Singh A., Tiwari A. K. An efficient hybrid approach for the prediction of epilepsy using CNN with LSTM. International Journal of Artificial Intelligence and Soft Computing. 2022. Vol. 7. No. 3. Pp. 179–193. doi: 10.1504/IJAISC.2022.126336
- Khan H.A. et al. Brain tumor classification in MRI image using convolutional neural network. Mathematical Biosciences and Engineering. 2021. Vol. 17. No. 5. Pp. 6203–6216. doi: 10.3934/mbe.2020328
- Houssein E.H. et al. Hybrid quantum-classical convolutional neural network model for COVID-19 prediction using chest X-ray images. Journal of Computational Design and Engineering. 2022. Vol. 9. No. 2. Pp. 343–363. doi: 10.1093/jcde/qwac003
- Раскопина А. С., Боженко В. В., Татарникова Т. М. Использование глубокого обучения при диагностировании пневмонии по рентгеновским снимкам. Известия высших учебных заведений. Приборостроение. 2024. Т. 67. № 4. С. 315–320. doi: 10.17586/0021-3454-2024-67-4-315-320
- Wan C. et al. Research on classification algorithm of cerebral small vessel disease based on convolutional neural network. Journal of Intelligent & Fuzzy Systems. 2023. Vol. 44. No. 2. Pp. 3107–3114.
- Ashtari-Majlan M., Seifi A., Dehshibi M.M. A multi-stream convolutional neural network for classification of progressive MCI in Alzheimer’s disease using structural MRI images. IEEE Journal of Biomedical and Health Informatics. 2022. Vol. 26. No. 8. Pp. 3918–3926. doi: 10.1109/JBHI.2022.3155705
- Ekong F. et al. Bayesian depth-wise convolutional neural network design for brain tumor MRI classification. Diagnostics. 2022. Vol. 12. No. 7. P. 1657. doi: 10.3390/diagnostics12071657
- Apostolopoulos I.D., Aznaouridis S., Tzani M. An attention-based deep convolutional neural network for brain tumor and disorder classification and grading in magnetic resonance imaging. Information. 2023. Vol. 14. No. 3. P. 174. doi: 10.3390/info14030174
- Shi Y. et al. Residual convolutional neural network-based stroke classification with electrical impedance tomography. IEEE Transactions on Instrumentation and Measurement. 2022. Vol. 71. Pp. 1–11. doi: 10.1109/TIM.2022.3165786
- Щетинин Е. Ю., Севастьянов Л. А. О методах переноса глубокого обучения в задачах классификации биомедицинских изображений // Информатика и ее применения. 2021. Т. 15. № 4. С. 59–64. doi: 10.14357/19922264210408. EDN: YQXVAA
- Щукина Н. А. Нейросетевые модели в задаче классификации медицинских изображений // Моделирование, оптимизация и информационные технологии. 2021. Т. 9. № 4(35). doi: 10.26102/2310-6018/2021.35.4.022. EDN: MXPABV
- Simonyan K., Zisserman A. Very deep convolutional networks for large-scale image recognition. 2014. doi: 10.48550/arXiv.1409.1556
- Khan A. et al. A survey of the recent architectures of deep convolutional neural networks. Artificial intelligence review. 2020. Vol. 53. Pp. 5455–5516.
- Набор данных МРТ опухоли головного мозга [Электронный ресурс]. URL: https://www.kaggle.com/datasets/masoudnickparvar/brain-tumor-mri-dataset
