Application of machine learning method to analyse incomplete data

L. А. Lyutikova; Лютикова Л. А.

doi:10.35330/1991-6639-2024-26-6-139-145

Application of machine learning method to analyse incomplete data

Authors: Lyutikova L.А.¹
Affiliations:
1. Kabardino-Balkarian Scientific Center of the Russian Academy of Sciences
Issue: Vol 26, No 6 (2024)
Pages: 139-145
Section: Informatics and information processes
Submitted: 02.03.2025
Accepted: 02.03.2025
Published: 15.12.2024
URL: https://bakhtiniada.ru/1991-6639/article/view/282103
DOI: https://doi.org/10.35330/1991-6639-2024-26-6-139-145
EDN: https://elibrary.ru/FIUPQE
ID: 282103

Cite item

Full Text

Abstract
Full Text
About the authors
References
Supplementary files
Statistics

Abstract

This paper presents an integrated approach to the analysis of incomplete and inaccurate data, illustrated by the example of mudflow forecasting. The aim of the study is to demonstrate how a combination of different methods allows not only to obtain adequate forecasts, but also to deeply understand the logic of decision-making by the model, identifying the key factors influencing the forecast. The key point of the work is the use of categorization of numerical data to increase the stability of models to outliers and noise, as well as to take into account nonlinear dependencies. The integrated approach is based on a combination of associative data analysis and the construction of a logical classifier, which acts as an interpreter of the obtained decisions. This combination made it possible to identify critical input features and understand how the model uses information to form a forecast, identify factors that have the greatest impact on the forecast result, ensure the accuracy and stability of forecasts taking into account the specificity and complexity of mudflow data. The rules obtained during the study, which are the key principles of the studied area, contribute to a deeper understanding of the nature of mudflows.

Keywords

machine learning, neural networks, cluster analysis, associative rules

Full Text

Введение

Несмотря на разнообразие подходов и методов обработки данных логический анализ позволяет выявить причинно-следственные связи и зависимости между различными переменными в данных, найти скрытые закономерности и тенденции в данных, которые могут быть незаметны при другом анализе.

Объединение различных методов логического анализа позволяет учесть больше аспектов данных, снизить влияние шума и выбросов и получить более точные прогнозы. Различные методы, используемые в комплексном анализе, могут выявлять как линейные, так и нелинейные взаимосвязи между переменными, что важно для сложных систем [1].

Исследование применяет машинное обучение для анализа характеристик селевых потоков на Северном Кавказе, используя имеющийся кадастр селей [2] с данными о генезисе, типе селя, площади бассейна, уклоне русла, длине реки, высоте истока и объеме выноса (табл. 1).

Таблица 1. Характеристики селевых потоков

Table 1. Mudflow characteristics

№	Название водотока	Генезис селя	Тип селя	Площадь бассейна, S, км²	Средний уклон русла, α, ‰	Длина реки, L, км	Высота истока, H, м абс.	Объем максимального единовременного выноса, W, м³	Максимальный объем твердых отложений селя, W, м³ (аналитическим методом)	Повторяемость 1 раз в n лет/ даты схода
1	Кичмалка	Д*	ВК	152,7	30	36	1909	10000	147240	1–2/ 31.05.93
2	Рхыкол	Д	ВК	9,8	52	10	1440	100000	81946	1–2/–
3	Кызылкол	Д	ВК	14,1	220	4,5	1520	50000	52140	1–5/–
4	Тазакол	Д	ВК	11,3	150	5	1525	50000	43200	1–5/–
5	Лахран	Д	ВК	22,2	102	5	1629	20000	35712	1–5/–
6	Большой Лахран	Д	ВК	21,8	190	6	1642	50000	53400	1–5/–
Примечание: Д – дождевой, ВК – водокаменный

Работа направлена на демонстрацию способности машинного обучения выявлять закономерности и создавать эффективные модели для классификации и прогнозирования селей. Анализ позволит углубить понимание процессов формирования селей, определить ключевые факторы риска и в конечном счете создать прогнозные модели для оценки последствий и управления селеопасными территориями. Полученные результаты имеют практическую ценность для инженерной и научной деятельности [3, 4].

Анализ данных

Задача состоит в разработке модели прогнозирования и классификации селей, основанной на логическом анализе данных. Цель анализа – выявление общих правил, порождающих эти зависимости, отбор наиболее информативных переменных и классификация типов селей.

Анализ кластеризации выявил слабую структуру в данных, разделив их на три группы, характеризующиеся различными физическими свойствами и типами селевых потоков.

Эти группы демонстрируют некоторые интересные закономерности.

Группа 1 отличается большими бассейнами и низким уклоном, что нетипично для селевых потоков. Это может свидетельствовать о более медленных и постепенных процессах формирования селей в этой группе.

Группы 0 и 2 различаются по высоте источника селей и объему селевых масс, но имеют схожий генезис и тип селей. Возможно, эти группы связаны с определенными географическими условиями, например, с особым рельефом или климатом.

Модель многопараметрической регрессии, построенная для прогнозирования целевой переменной, оказалась неэффективной. Высокое значение MSE (92477727488,7331) свидетельствует о значительных ошибках прогнозирования, а низкое значение R-квадрата (0,1235) указывает на крайне низкую объясняющую способность модели [5, 6].

Линейная модель неадекватно описывает нелинейные взаимосвязи между предикторами и целевой переменной, что является основной причиной неудовлетворительных результатов. В качестве меры по преодолению этой проблемы была применена категоризация числовых данных [2, 7, 8].

Категориальные данные

Преобразование непрерывных данных в категориальные позволяет учитывать нелинейные зависимости путем разбиения данных на интервалы, в которых взаимосвязи могут быть аппроксимированы линейными. Такой подход повышает устойчивость моделей к выбросам и шуму, упрощая интерпретацию результатов (табл. 2). Вместо анализа непрерывного спектра значений модель оперирует более компактным набором дискретных категорий, что упрощает сравнение и анализ.

Таблица 2. Диапазон значений для дискретизации

Table 2. Range of values for discretization

Группа	Площадь бассейна, S, км²	Средний уклон русла, α, ‰	Длина реки, L, км	Высота истока, H, м абс.	M1, м³	M2, м³
Малый (0)	0 – 12,64	0 – 44,52	0 – 1492,8	0 – 1492,8	0 – 8300	0 – 71811,96
Средний (1)	12,64 – 58,45	44,52 – 105,76	1492,80 – 1644,48	1492,80 – 1644,48	8300 – 38800	71811,96 – 102840,08
Большой (2)	58,45 – +¥	105,76 – +¥	1644,48 –+¥	1644,48 – +¥	38800 – +¥	102840,08 –+¥

Теперь задача регрессии, описанная в предыдущем разделе, сводится к задаче классификации, поскольку целевая переменная становится категориальной. И задача может быть описана следующим образом [2, 9]:

$X = {x_{1}, x_{2},..., x_{n}}, x_{i} \in {0, 1,..., k_{i} - 1} .$

В нашей системе входными данными будут являться n=6, а выходными m=387:

$(\begin{matrix} x_{1} (y_{1}) & x_{2} (y_{1}) & ... & x_{n} (y_{1}) \\ x_{1} (y_{2}) & x_{2} (y_{2}) & ... & x_{n} (y_{2}) \\ ... & ... & ... & ... \\ x_{1} (y_{m}) & x_{2} (y_{m}) & ... & x_{n} (y_{m}) \end{matrix}) \to (\begin{matrix} y_{1} \\ y_{2} \\ ... \\ y_{m} \end{matrix})$ (1)

Методы решения

Вместо того, чтобы предсказывать непрерывное значение объема максимального единовременного выноса «М1», мы теперь предсказываем, к какой из трех категорий (50, 51 или 52) относится «М1». После построения модели классификации с использованием дерева решений мы получили впечатляющие результаты, представленные в табл. 3.

Таблица 3. Результат классификации объема максимального единовременного выноса

Table 3. Result of classification of the maximum one-time removal volume

Метрика Объем выноса (м³)	Recall (чувствительность)	Precision (точность)	Accuracy (правильность)	F1-мера
Малый (50)	1	1	1	1
Средний (51)	1	1	1	1
Большой (52)	1	1	1	1

Логические методы анализа – это построение ассоциативных правил и логического классификатора [10, 11].

Метод построения ассоциативных правил – это метод обнаружения скрытых взаимосвязей и закономерностей в больших объемах данных. Он фокусируется на поиске наборов элементов, которые часто встречаются вместе в данных. Этот метод обычно используется для анализа данных о транзакциях, где каждая запись представляет собой отдельную транзакцию.

В данной работе использовался алгоритм FP-Growth – это эффективный алгоритм для поиска ассоциативных правил в больших объемах данных. Он основан на построении специального дерева (FP-дерева), которое содержит часто встречающиеся элементы и их взаимосвязи. Алгоритм FP-Growth обходит это дерево, а не все данные целиком, что значительно ускоряет процесс поиска правил с высокой поддержкой. В итоге он находит все правила, удовлетворяющие заданным порогам поддержки и достоверности, значительно быстрее и эффективнее, чем другие алгоритмы, такие как Apriori [12].

После работы алгоритма самые важные ассоциативные правила представлены в табл. 4.

Таблица 4. Самые важные ассоциативные правила

Table 4. The most important association rules

№	Antecedents (причина)	Consequents (следствие)
232619	(D, GK, 11, 62)	(40, 32, 51, 22)
200538	(40, 11, 62)	(D, 32, 22, GK)
200510	(40, GK, 11, 62)	(D, 32, 22)
230187	(40, 32, 61, 51, 11, VK)	(C-D, 20)
230216	(40, 32, 61, 11, VK)	(C-D, 51, 20)

Анализ пяти выявленных закономерностей, используя методы булевой алгебры [9], показывает, что грязекаменные сели, даже при средней площади бассейна, отличаются значительным объемом максимального единовременного выноса и высоким содержанием твердых отложений.

Построение логического классификатора

Каждая строка (1) является зависимостью и может быть представлена следующим правилом:

$&_{j = 1}^{m} x_{j} (y_{i},) \to y_{i} .$ (2)

Эти правила описывают зависимость конкретного выноса твердых отложений от остальных параметров данного селевого потока [8].

Представим их в следующей дизъюнктивной форме:

$\lor_{j = 1}^{m} \bar{x_{j} (y_{i})} \lor y_{i},$ (3)

а зависимость всех исследуемых селевых потоков от своих параметров как

$f (x, y) = &_{i = 1}^{n} \lor_{j = 1}^{m} \bar{x_{j} (y_{i})} \lor y_{i} .$ (4)

В нашем случае $f (X) = &_{j = 1}^{387} (&_{i = 1}^{7} x_{i} \to P (y_{j}))$

$\begin{matrix} x_{1} \in {D, L, C - D,}; x_{2} \in {V K, GK}; x_{3} \in {10,,11,12}; x_{4} \in {20,21,22}; \\ x_{5} \in {30,31,32}; x_{6} \in {40,41,42}; x_{7} \in {50,51,52} . \end{matrix}$

$P (60) = \{\begin{matrix} 0 п р и y_{i} = 61 и л и 62 \\ 1 п р и y_{i} = 60 \end{matrix}; P (61) = \{\begin{matrix} 0 п р и y_{i} = 60 и л и 62 \\ 1 п р и y_{i} = 61 \end{matrix};$

$P (62) = \{\begin{matrix} 0 п р и y_{i} = 60 и л и 61 \\ 1 п р и y_{i} = 62 \end{matrix} .$

Из огромного количества полученных правил (93 237) были отобраны наиболее значимые, в основном правила, содержащие категории 60, 61 или 62. Для упрощения и обобщения информации схожие правила были объединены, что сократило общее количество правил без потери ключевой информации [9].

В результате часть картины полученных правил изображена на рис. 1.

Рис. 1. Результирующие правила (здесь обозначения: «|»-« »; «,»- «&»)

Fig. 1. Resulting rules (here the notations are: «|»-« »; «,»- «&»)

Данные можно проинтерпретировать следующим образом: сели с малым объемом твердых отложений (60) – это преимущественно небольшие грязекаменные дождевые потоки с низкой интенсивностью. Сели со средним объемом (61) характеризуются преобладанием дождевого генезиса, но включают как грязекаменные, так и водокаменные сели преимущественно со средними и крупными бассейнами. Сели с большим объемом (62) чаще всего вызваны ливневыми дождями (L-D) и связаны с крупными бассейнами и руслами.

Заключение

В результате можно утверждать, что логический анализ данных позволяет выделить набор фундаментальных правил, которые объясняют основные закономерности и взаимосвязи в данных. Эти правила являются основой исследуемой области, способствуют более глубокому пониманию ее природы и оптимизируют поиск решений.

Результаты исследования показывают, что даже неполные и неточные данные могут стать основой для создания эффективных моделей прогнозирования, что дает возможности в области управления рисками и повышения безопасности в зонах, подверженных селевым потокам. Это подчеркивает потенциал интеллектуальных аналитических систем для эффективного управления рисками и минимизации негативных последствий селевых процессов.

About the authors

L. А. Lyutikova

Kabardino-Balkarian Scientific Center of the Russian Academy of Sciences

Author for correspondence.
Email: lylarisa@yandex.ru
ORCID iD: 0000-0002-5819-9396
SPIN-code: 1679-7460

Institute of Applied Mathematics and Automation, Candidate of Physical and Mathematical Sciences, Head of the Department of Neural Networks and Machine Learning

Russian Federation, 360000, Nalchik, 89 A Shortanov street

References

Kondrat'eva N.V. Preliminary assessment of the maximum volume of solid mudflow deposits using mathematical statistics methods for the Central Caucasus. Sovremennye problemy nauki i obrazovaniya [Modern problems of science and education]. 2014. No. 4. Pp. 50–56. URL: http://www.science-education.ru/118-13897. (In Russian)
Kondrat'eva N.V., Adzhiev A.Kh., Bekkiev M.Yu. et al. Kadastr selevoy opasnosti Yuga evropeyskoy chasti Rossii [Mudflow hazard cadastre of the South of the European part of Russia]. M., Nal'chik: Feoriya, 2015. 148 p. (In Russian)
Caiafa C.F., ,Jordi Solé-Casals J.S.-C., Marti-Puig P. et al. Decomposition methods for machine learning with small, incomplete or noisy datasets. Applied Sciences. 2020. Vol. 10. No. 23. P. 8481. doi: 10.3390/APP10238481
Kainthura P., Sharma N. Hybrid machine learning approach for landslide prediction, Uttarakhand, India. Scientific reports. 2022. Vol. 12. No. 1. P. 20101. doi: 10.1038/s41598-022-22814-9
Hadi F.A.A., Sidek L.M., Salih G.H.A. et al. Machine learning techniques for flood forecasting. Journal of Hydroinformatics. 2024. Vol. 26. No. 4. Pp. 779–799. doi: 10.2166/hydro.2024.208
Lombardo L., Mai P.M. Presenting logistic regression-based landslide susceptibility results. Engineering Geology. 2018. Vol. 244. Pp. 14–24. doi: 10.1016/j.enggeo.2018.07.019
Rahmati O., Kornejady A., Samadi M. et al. PMT: New analytical framework for automated evaluation of geo-environmental modelling approaches. The Science of the Total Environment. 2019. Vol. 664. Pp. 296–311. doi: 10.1016/j.scitotenv.2019.02.017
Kyul' E.V., Ezaov A.K., Kankulova L.I. Theoretical foundations of geoecological monitoring of mountain ecosystems. Ustoychivoe razvitie gornykh territoriy [Sustainable development of mountain areas]. 2019. Vol. 11. No 1. Pp. 36–43. doi: 10.21177/1998-4502-2019-11-1-36-43. (In Russian)
Lyutikova L.A. Methods for Improving the Efficiency of Neural Network Decision-Making. Advances in Automation IV. RusAutoCon 2022. Lecture Notes in Electrical Engineering. 2023. Vol. 986. Pp. 294–303. doi: 10.1007/978-3-031-22311-2_29
Radeev N.A. Predicting Avalanche Hazard Using Machine Learning Methods. Vestnik NGU. Seriya: Informacionnye tekhnologii [Bulletin of NSU. Series: Information technology]. 2021. Vol. 19, No 2. Pp. 92–101. doi: 10.25205/1818-7900-2021-19-2-92-101. (In Russian)
Zhuravlyov Yu.I. On an algebraic approach to solving recognition or classification problems. Problemy kibernetiki [Problems of cybernetics]. 1978. Vol. 33. Pp. 5–68. (In Russian)
Flakh P. Mashinnoe obuchenie: nauka i iskusstvo postroeniya algoritmov, kotorye izvlekayut znaniya iz dannykh [Machine Learning: The Art and Science of Algorithms that Make Sense of Data]. Moscow: DMK Press, 2015. (In Russian)

Supplementary files

Supplementary Files

Action

1. JATS XML

Download

2. Fig. 1. Resulting rules (here the notations are: «|»-« »; «,»- «&»)

Download (10KB)

Indexing metadata

Username
Password
Remember me

Forgot password?	Register

Username
Password
Remember me

Forgot password?	Register

Vol 27, No 6 (2025)

Vol 27, No 6 (2025)

Application of machine learning method to analyse incomplete data

Full Text

Abstract

Keywords

Full Text

Введение

Анализ данных

Категориальные данные

Методы решения

Построение логического классификатора

Заключение

About the authors

L. А. Lyutikova

References

Supplementary files