Development of a Binary Classification Model Based on Small Data Using Machine Learning Methods

封面

如何引用文章

全文:

开放存取 开放存取
受限制的访问 ##reader.subscriptionAccessGranted##
受限制的访问 订阅存取

详细

Today, solutions to the problem of binary classification using machine learning find applications in a huge number of spheres of life, such as medicine, energy, marketing, agriculture, financial analytics, etc. This is a great opportunity for companies to gain new sources of profit and improve existing processes. Therefore, new solution methods are being actively developed, existing ones are being improved, and research is being conducted on the possibility of using machine learning to solve classification problems in various fields. The study of the effectiveness of using various machine learning methods, taking into account the existing problems of small data in solving the problem of binary classification, is very relevant due to the significant preponderance of developments towards Big Data. For small data, possible problems that affect the effectiveness of the trained model have been identified, and various options for solving these problems have been proposed. To assess the impact of small data problems on the quality of the trained model, a comparative analysis of the quality metrics of models trained on different variations of data processing was carried out. It is concluded that correct work with small data requires timely elimination of such data defects as class imbalance, outliers, etc. In the course of the study, the most significant quality metrics were selected to obtain a model for analyzing medical parameters. A comparative analysis of diabetes detection models based on preprocessed small data has been carried out. For the task under consideration, the stacking model was chosen as the best option for medical use. The results of the analysis showed that machine learning is able to show high efficiency in solving real problems of binary classification.

作者简介

Svetlana Mikhaylova

Financial University under the Government of the Russian Federation

编辑信件的主要联系方式.
Email: ssmihajlova@fa.ru
ORCID iD: 0000-0001-9183-8519

Dr. Sci. (Econ.), Associate Professor, Professor, Department of Data Analysis and Machine Learning, Faculty of Information Technology

俄罗斯联邦, Moscow

Natalia Grineva

Financial University under the Government of the Russian Federation

Email: ngrineva@fa.ru
ORCID iD: 0000-0001-7647-5967

Cand. Sci. (Econ.), Associate Professor, Associate Professor of the Department of Data Analysis and Machine Learning

俄罗斯联邦, Moscow

参考

  1. Fahad B. Mostafa, Easin Hasan Machine Learning Approaches for Binary Classification to Discover Liver Diseases using Clinical Data : diss. Texas, 2021. —23 p.
  2. Bashayer Fouad Marghalani, Muhammad Arif Automatic Classification of Brain Tumor and Alzheimer’s Disease in MRI // Procedia Computer Science. —2019. —№163. —P. 78–84.
  3. Enrique Peláez, Ricardo Serrano, Geancarlo Murillo, Washington Cárdenas A Comparison of Deep Learning Models for Detecting COVID-19 in Chest X-ray Images // IFAC-PapersOnLine. —2021. —№54. —P. 358–363.
  4. Lamir Shkurti, Faton Kabashi, Vehebi Sofiu, Arsim Susuri Performance Comparison of Machine Learning Algorithms for Albanian News articles // IFAC-PapersOnLine. —2022. —№55. —P. 292–295.
  5. I.-M. Sarivan, Johannes N. Greiner, D. Díez Álvarez, F. Euteneuer, M. Reichenbach, O. Madsen, S. BøghEnabling Real-Time Quality Inspection in Smart Manufacturing Through Wearable Smart Devices and Deep Learning // Procedia Manufacturing. —2020. —№51. —P. 373–380.
  6. Qingqing Zhang, Jiyang Zhang, Jianxiao Zou, Shicai Fan A Novel Fault Diagnosis Method based on Stacked LSTM // IFAC-PapersOnLine. —2020. —№53. —P. 790–795.
  7. Grineva N.V., Mikhailova S.S. Application of machine learning for modeling borrower default // Innovations and investments. 2023. No. 4. pp. 254–262. EDN: MWZQEK.
  8. Grineva N.V., Mikhailova S.S., Kontsevaya N.V., Econometric modeling of the company's intellectual capital in the context of digitalization// In the collection: Management of large-scale system development. 2023. EDN: EKPRPM.
  9. Krinichansky K., Grineva N. Dynamic approach to the analysis of financial structure: overcoming the bank-based vs market-based dichotomy// In the collection: 2023 16th International Conference Management of large-scale system development (MLSD). 2023. EDN: RSHSND, doi: 10.1109/MLSD58227.2023.10303933.
  10. Semyonova P.A., Grineva N.V., Mikhailova S.S. Preliminary data analysis and construction of features in the problem of forecasting supply volumes // Problems of economics and legal practice. 2023. T. 19. No. 3. P. 141–152. EDN: CALJPF.
  11. Strzelecka, A. Application of logistic regression models to assess household financial decisions regarding debt / A. Strzelecka, A. Kurdyś-Kujawska, D. Zawadzka // Procedia Computer Science —2022. —№176.
  12. Application of Support Vector Machine for Prediction of Medication Adherence in Heart Failure Patients / S. Youn-Jung, K. Hong-Gee, K. Eung-Hee, C. Sangsup // Healthc Inform Res. —16(4). —Korea : The Korean Society of Medical Informatics, 2010. —P. 253–259.
  13. Analysis of Image Classification using SVM / G. Sai Surya Teja, G. Yogeshwara Sai Varun, G. Bhanu Rama Ravi Teja [и др.] // 12th International Conference on Computing Communication and Networking Technologies (ICCCNT). —Kharagpur, India : IEEE, 2021. —P. 1–6.
  14. Pengcheng Xu, Xiaobo Ji, Minjie Li & Wencong Lu Small data machine learning in materials science // npj Computational Materials. —2023. —№9.
  15. Hui Wang, Ivo Duentsch, Gongde Guo & Sadiq Ali Khan Special issue on small data analytics // International Journal of Machine Learning and Cybernetics. —2023. —№14.

补充文件

附件文件
动作
1. JATS XML
2. Fig. 2.Histogram and density graph of the number of pregnancies. Source: compiled by the authors.

下载 (34KB)
3. Fig. 3.Histogram and density graph of blood glucose levels. Source: compiled by the authors.

下载 (15KB)
4. Fig. 4.Histogram and graph of blood pressure density. Source: compiled by the authors.

下载 (14KB)
5. Fig. 5.Class diagram. Source: compiled by the authors.

下载 (8KB)


Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».