Разработка модели бинарной классификации на малых данных с использованием методов машинного обучения

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

Сегодня решения задачи бинарной классификации с помощью машинного обучения находят себе применения в огромном количестве сфер жизни, таких как медицина, энергетика, маркетинг, сельское хозяйство, финансовая аналитика и др. Для компаний это отличная возможность получить новые источники прибыли, так и улучшить существующие процессы. Поэтому сейчас активно разрабатываются новые методы решения, улучшаются существующие, проводятся исследования на тему возможности применения машинного обучения при решении задачи классификации в различных областях. Исследование эффективности применения различных методов машинного обучения с учетом существующих проблем малых данных в решении задачи бинарной классификации весьма актуальна из-за значительного перевеса разработок в сторону Big Data. Для малых данных были определены возможные проблемы, которые влияют на эффективность обучаемой модели, предложены различные варианты по решению этих проблем. Для оценки влияния проблем малых данных на качество обученной модели был проведен сравнительный анализ метрик качества моделей, обученных на разных вариация обработки данных. Сделан вывод, что для корректной работы с малыми данными необходимо своевременно устранять такие дефекты данных как дисбаланс классов, выбросы и др. В ходе исследования выбраны наиболее значимые метрики качества для получения модели по анализу медицинских параметров. Проведен сравнительный анализ моделей определению диабета на предобработанных малых данных. Для рассматриваемой задачи лучшим вариантом для использования в медицинских целях была выбрана модель стэкинга. Результаты анализа показали, что машинное обучение способно показывать высокую эффективность при решении реальных задач бинарной классификации.

Об авторах

Светлана Сергеевна Михайлова

Финансовый университет при Правительстве Российской Федерации

Автор, ответственный за переписку.
Email: ssmihajlova@fa.ru
ORCID iD: 0000-0001-9183-8519

доктор экономических наук, доцент, профессор кафедры анализа данных и машинного обучения Факультета информационных технологий

Россия, г. Москва

Наталья Владимировна Гринева

Финансовый университет при Правительстве Российской Федерации

Email: ngrineva@fa.ru
ORCID iD: 0000-0001-7647-5967

кандидат экономических наук, доцент, доцент кафедры анализа данных и машинного обучения

Россия, г. Москва

Список литературы

  1. Fahad B. Mostafa, Easin Hasan Machine Learning Approaches for Binary Classification to Discover Liver Diseases using Clinical Data : diss. Texas, 2021. —23 p.
  2. Bashayer Fouad Marghalani, Muhammad Arif Automatic Classification of Brain Tumor and Alzheimer’s Disease in MRI // Procedia Computer Science. —2019. —№163. —P. 78–84.
  3. Enrique Peláez, Ricardo Serrano, Geancarlo Murillo, Washington Cárdenas A Comparison of Deep Learning Models for Detecting COVID-19 in Chest X-ray Images // IFAC-PapersOnLine. —2021. —№54. —P. 358–363.
  4. Lamir Shkurti, Faton Kabashi, Vehebi Sofiu, Arsim Susuri Performance Comparison of Machine Learning Algorithms for Albanian News articles // IFAC-PapersOnLine. —2022. —№55. —P. 292–295.
  5. I.-M. Sarivan, Johannes N. Greiner, D. Díez Álvarez, F. Euteneuer, M. Reichenbach, O. Madsen, S. Bøgh Enabling Real-Time Quality Inspection in Smart Manufacturing Through Wearable Smart Devices and Deep Learning // Procedia Manufacturing. —2020. —№51. —P. 373–380.
  6. Qingqing Zhang, Jiyang Zhang, Jianxiao Zou, Shicai Fan A Novel Fault Diagnosis Method based on Stacked LSTM // IFAC-PapersOnLine. —2020. —№53. —P. 790–795.
  7. Гринева Н.В., Михайлова С.С. Применение машинного обучения для моделирования дефолта заемщика //Инновации и инвестиции. 2023. № 4. С. 254–262. EDN: MWZQEK.
  8. Grineva N.V., Mikhailova S.S., Kontsevaya N.V., Econometric modeling of the company's intellectual capital in the context of digitalization// In the collection: Management of large-scale system development. 2023. EDN: EKPRPM.
  9. Krinichansky K., Grineva N. Dynamic approach to the analysis of financial structure: overcoming the bank-based vs market-based dichotomy// In the collection: 2023 16th International Conference Management of large-scale system development (MLSD). 2023. EDN: RSHSND, doi: 10.1109/MLSD58227.2023.10303933.
  10. Семёнова П.А., Гринева Н.В., Михайлова С.С. Предварительный анализ данных и построение признаков в задаче прогнозирования объемов поставок //Проблемы экономики и юридической практики. 2023. Т. 19. № 3. С. 141–152. EDN: CALJPF.
  11. Strzelecka, A. Application of logistic regression models to assess household financial decisions regarding debt / A. Strzelecka, A. Kurdyś-Kujawska, D. Zawadzka // Procedia Computer Science —2022. —№176.
  12. Application of Support Vector Machine for Prediction of Medication Adherence in Heart Failure Patients / S. Youn-Jung, K. Hong-Gee, K. Eung-Hee, C. Sangsup // Healthc Inform Res. —16(4). —Korea : The Korean Society of Medical Informatics, 2010. —P. 253–259.
  13. Analysis of Image Classification using SVM / G. Sai Surya Teja, G. Yogeshwara Sai Varun, G. Bhanu Rama Ravi Teja [и др.] // 12th International Conference on Computing Communication and Networking Technologies (ICCCNT). —Kharagpur, India : IEEE, 2021. —P. 1–6.
  14. Pengcheng Xu, Xiaobo Ji, Minjie Li & Wencong Lu Small data machine learning in materials science // npj Computational Materials. —2023. —№9.
  15. Hui Wang, Ivo Duentsch, Gongde Guo & Sadiq Ali Khan Special issue on small data analytics // International Journal of Machine Learning and Cybernetics. —2023. —№14.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 2.Гистограмма и график плотности количества беременностей. Источник: составлено авторами.

Скачать (34KB)
3. Рис. 3.Гистограмма и график плотности уровня глюкозы в крови. Источник: составлено авторами.

Скачать (15KB)
4. Рис. 4.Гистограмма и график плотности кровяного давления. Источник: составлено авторами.

Скачать (14KB)
5. Рис. 5.Диаграмма классов. Источник: составлено авторами.



Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».