Solving approximation problems: Implementing a neuro-fuzzy network model based on a Bayesian logical-probabilistic approach

Abstract

The paper describes the implementation of a neuro-fuzzy network (NFN) model based on Bayesian logical-probabilistic fuzzy inference model as a specialized software tool. In addition to the NFN model itself, it implements adapted algorithms for constructing (grid partitioning algorithm for generating fuzzy rules) and training (error backpropagation algorithm and hybrid algorithm) NFN known from ANFIS network in MATLAB. The designed software tool is written in Java. It solves practical problems and investigates the effectiveness and applications of NFN based on the Bayesian logical-probabilistic fuzzy inference model. The authors discuss the experience of building and training the proposed NFN type using the developed toolkit. The authors also consider the creation and training examples of NFNs designed to solve specific approximation problems of multivariable functions based on real open and synthetic data sets. The paper compares the results obtained using the developed tool and the ANFIS tool from MATLAB. The authors confirmed that the proposed NFN model can be a universal approximator of complex functional dependencies. This confirms its efficiency and possibilities of using it in different fields. The inclusion of various approximation quality metrics in the program allows evaluating network training quality, accuracy, stability, and adaptability to new data comprehensively. Access restrictions for Russian users to foreign commercial software enhance the practical significance of the developed software tool based on the original NFN model; it makes the development relevant and useful for a wide range of users.

Full Text

Введение. Нейросетевой подход к решению задач анализа данных получил широкое распространение, а примеры использования нейронных сетей в системах искусственного интеллекта (включая так называемые генеративные модели) общеизвестны и выглядят впечатляюще. Эффективность применения нейронных сетей в подобных задачах обусловлена тем, что они являются универсальными аппроксиматорами, способными после обучения реализовать на заданном наборе данных любую непрерывную функциональную зависимость.

Менее известны среди непрофессионалов успехи применения в области искусственного интеллекта гибридных нейронных сетей, в которых нейросетевой подход распространяется на системы нечеткого вывода. В России одним из показательных примеров работ в этом направлении является монография [1]. Авторы данной статьи придерживаются классификации гибридных сетей, применяемой современными зарубежными исследователями [2, 3] и признанной в нашей стране. Различают гибриды двух типов: нечеткие нейронные сети, структура которых сходна с классическими нейронными сетями, но сами нейроны являются нечеткими, то есть имеют нечеткие входы и выходы и/или нечеткие веса, и нейро-нечеткие сети (ННС).

Как нейронная сеть особого гибридного типа ННС, с одной стороны, представляет собой нечеткую систему, обладающую способностью формировать выходные сигналы на основе фаззификации значений входных сигналов, использования базы нечетких правил и механизма нечеткого вывода (НВ), а далее дефаззификации полученных результатов. С другой стороны, она организована в многослойную нейронную структуру, состоящую как из параметрических, так и из непараметрических слоев, нейроны в которых выполняют расчетные операции в соответствии с выбранной моделью НВ. Благодаря адаптивной настройке значений параметров, задаваемых для нейронов параметрических слоев, сеть способна настраиваться таким образом, чтобы результирующие выходные значения соответствовали ожидаемым, что делает ее способной к обучению.

Известно, что объединение в гибридных системах нейросетевого и нечеткого подходов позволяет как привнести в системы нечеткого вывода способность к обучению и параллелизм вычислений, присущие нейронным сетям, так и усилить интеллектуальные возможности нейронных сетей использованием лингвистически интерпретируемых нечетких правил выработки решений и знаний экспертов. Однако, по мнению авторов, эти преимущества наиболее проявляются в нечетких нейронных сетях. В то же время в ННС аппарат НВ теряет свою семантическую природу, нечеткая терминология лишается своей смысловой значимости, а нечеткие правила упрощаются и приобретают, скорее, формальный характер: лингвистические переменные и функции принадлежности их термов используются просто как элементы модели нейронной сети. В результате такая нейросетевая структура становится самодовлеющей, способной самостоятельно (без создания базы правил экспертами) решать задачи, связанные с аппроксимацией функций нескольких переменных.

Количество новых гибридных сетей и их модификаций постоянно растет. Подробные актуальные обзоры, посвященные гибридным сетям различных типов, тенденциям, проблемам и перспективам их применения, представлены в [2, 3]. В [4] сделан обзор применяемых для таких сетей техник обучения. Имеются многочисленные примеры использования ННС, свидетельствующие об актуальности и интенсивности современных исследований и разработок в этой области искусственного интеллекта. ННС зарекомендовали себя как мощный инструмент, обеспечивающий эффективное решение задач прогнозирования, диагностики, автоматического управления и регулирования, а также других, связанных с анализом и обработкой данных. В ряде работ демонстрируются возможности решения задач прогнозирования временных рядов [5], состояния кабельных линий [6], энергопотребления зданий [7], поверхностного натяжения в материалах [8]. Пример использования ННС для решения задачи классификации показан в работе [9], а для решения задачи анализа и оценки проектных решений – в [10]. ННС успешно применяются в промышленной сфере: в [11, 12] демонстрируется применение ННС в управлении и регулировании, а в [13] - для оптимизации параметров производственного процесса.

Структуре многослойной ННС на основе байесовской логико-вероятностной модели (БЛВ-модели) НВ и ее апробации посвящены работы [14–16]. Предложенная сетевая структура сопоставима с известными ННС Такаги–Сугено–Канга (TSK) и Ванга–Менделя [17], в частности, с широко применяемой моделью ANFIS (Adaptive Neuro-Fuzzy Inference System), также основанной на модели НВ TSK. Особую популярность ANFIS получила в связи с наличием ее готовой реализации в пакете MATLAB (https://www.mathworks.com/help/fuzzy/neuro-adaptive-learning-and-anfis.html).

В данной статье демонстрируется практическое применение разработанной программы для создания и обучения ННС на основе БЛВ-модели НВ, ориентированных на решение конкретных задач аппроксимации функций нескольких переменных на реальных и синтетических данных, что позволяет оценить их аппроксимационные способности и эффективность обучения в сравнении с инструментом для создания и обучения сетей ANFIS из MATLAB.

ННС на основе БЛВ-модели

БЛВ-модель НВ предложена в [18]. Позднее она исследована и программно реализована авторами, получено Свидетельство о государственной регистрации программы для ЭВМ RU 2021662943. Опыт этой программной реализации использован при разработке программы для создания и обучения ННС на основе БЛВ-модели НВ. Нейросетевая интерпретация БЛВ-модели НВ и структурная схема ННС на ее основе представлены в [14, 15]. Остановимся кратко на функциональности нейронов, распределенных по слоям сети. Следует отметить, что в процессе программной реализации модели ННС учтены полученные предварительные результаты обучения и внесены полезные изменения в функциональное описание некоторых слоев сети.

Структура сети включает семь слоев, три из которых (первый, третий и шестой) являются параметрическими (рис. 1). Первый слой нейронов выполняет фаззификацию каждой входной переменной xn, n=1,N¯, то есть расчет значения функции принадлежности (ФП) для каждого j-го терма, j=1,Mn¯ , каждой n-й входной лингвистической переменной (ЛП), причем, в отличие от представления структуры ННС в [14, 15], в программной реализации в качестве ФП используется частный случай (b = 1) обобщенной гауссовой функции:

gj,nxn;cj,n,σj,n=exncj,n2bσj,n2, (1)

которая при некоторых значениях показателя степени b может определять треугольную и трапецеидальную ФП. Центры c = (c1,1, …, сj, n, …) и коэффициенты ширины σ = (s1,1, …, sj, n, …) гауссовых ФП являются параметрами первого слоя ННС.

 

Рис. 1. Структура ННС на основе БЛВ-модели НВ, где ФВЛ – функции вероятностной логики

Fig. 1. Structure of NFN based on Bayesian logical probabilistic model of fuzzy inference with functions of probabilistic logic

 

Второй слой нейронов рассчитывает условные вероятности P(e|Hk), k = 1, …, K, на основе базы нечетких правил, трансформированной в набор функций вероятностной логики. Эти функции в качестве аргументов принимают значения ФП gj, n, рассчитанные нейронами первого слоя сети. Отметим, что в качестве алгоритма генерации базы нечетких правил для программной реализации ННС выбран алгоритм сеточного разбиения, чем обусловлен простой вид формулы для расчета условной вероятности k-м нейроном второго слоя:

Pe|Hk=n=1Ngj,nxn;cj,n,σj,n. (2)

Нейроны третьего слоя выполняют взвешивание значений условных вероятностей параметрами-весами нечетких правил w = (w1, …, wk). Нейрон четвертого слоя суммирует взвешенные условные вероятности. Нейроны пятого слоя по формуле, основанной на формуле Байеса, формируют апостериорное распределение вероятностей:

PHk|e=wkPe|Hkl=1KwlPe|Hl, (3)

где K – число термов выходной ЛП (байесовских гипотез Hk), соответствующих числу функций вероятностной логики (оценивающих степень истинности свидетельств в пользу каждой гипотезы); wk – вес k-го правила, wk ∈[0; 1].

Нейроны шестого слоя и нейрон-сумматор седьмого слоя отвечают за дефаззификацию выходной переменной. Итоговая оценка y^ значения выходной переменной y вычисляется по формуле

y^=k=1Ky~kPHk|e, (4)

где P(Hk|e) – элемент апостериорного распределения вероятностей (3); y~k – характерное значение соответствующего терма выходной ЛП. При этом, в отличие от структуры ННС в [14, 15], в качестве параметров шестого слоя в программной реализации сети выступают не коэффициенты αk, предназначавшиеся для вычисления значений y~k как выпуклых комбинаций граничных точек соответствующих термам интервалов на шкале выходной переменной, а непосредственно характерные значения y~=y~1,,y~K термов выходной ЛП. Результат работы сети – число y^, аппроксимирующее значение некоторой функции y=fx1,,xN.

Таким образом, параметрами ННС на основе БЛВ-модели НВ, которые уточняются и обновляются в процессе обучения сети, являются:

  • центры c и коэффициенты ширины σ гауссовых ФП (первый слой нейронов);
  • веса нечетких правил w (третий слой нейронов);
  • характерные значения термов выходной ЛП y~ (шестой слой нейронов).

Компоненты векторов c, σ и w отнесем к нелинейным параметрам, поскольку они используются в нелинейных функциях (1) и (3), а y~ - к линейным, так как они используются в линейной функции (4).

Алгоритмы, используемые при построении и обучении ННС на основе БЛВ-модели НВ

Для полноценной работы с ННС необходимы алгоритмы двух типов. Во-первых, алгоритмы начального формирования ее структуры, которые на основе имеющегося набора данных, выбранного вида ФП и указанного количества термов входных ЛП выполняют генерацию нечетких правил. Во-вторых, алгоритмы ее обучения, выполняющие обновление параметров выражений (1–4) таким образом, чтобы после каждой эпохи обучения сети (одного цикла полного прохода по обучающему набору данных) уменьшалось значение функции потерь:

Lyi,y^ixi;c,,w,y~=12yiy^i2, (5)

где yi и y^i представляют соответственно целевое и предсказанное значения для i-й строки данных xi = (x1, …, xN) из обучающего набора, i=1,Z¯, где Z – число строк набора. Обучение заканчивается либо по завершении определенного числа эпох, либо по достижении заданной величины функции потерь L.

Для начального формирования структуры ННС был выбран алгоритм сеточного разбиения, поскольку он доступен в MATLAB и несложен в реализации, а для обучения выбраны алгоритм обратного распространения ошибки (АОРО), основанный на градиентном спуске (ГС), и гибридный алгоритм (ГА) [16], адаптированные для учета особенностей ННС на основе БЛВ-модели НВ. Как показывает практика работы с ANFIS в MATLAB, ГА обеспечивает более быструю сходимость обучения, чем АОРО.

Алгоритм сеточного разбиения

Суть данного алгоритма состоит в равномерном распределении термов каждой n-й входной ЛП, n=1,N¯, по шкале значений соответствующей входной переменной. Так, если ФП для термов входной ЛП определяются как гауссовы (1), то шкала делится на sn + 1 равных интервалов, где sn – выбранное количество термов, и далее в качестве центров cj, n выбираются значения точек соприкосновения этих интервалов, а в качестве коэффициентов ширины σj,n – длины интервалов. С помощью аналогичного разбиения шкалы выходной переменной на K + 1 равных интервалов выбираются и y~k – характерные значения термов выходной ЛП. Количество характерных значений K соответствует количеству правил, посылка каждого из которых формируется как конъюнкция утверждений вида ЛПn = Термj, где j – индекс терма n-й входной ЛП. При этом число K равно мощности N-кратного декартова произведения терм-множеств входных ЛП.

Алгоритм сеточного разбиения прост в реализации, имеет высокую скорость работы, однако создает избыточное количество правил, что увеличивает вычислительную сложность.

Алгоритм обратного распространения ошибки

Процесс обучения ННС направлен на минимизацию значения функции (5) путем итеративной коррекции параметров нейронов параметрических слоев ННС. В адаптации АОРО для его применения при обучении ННС на основе БЛВ-модели НВ ключевым элементом является выработка правила обновления параметров сети c,σ,w,y~ на основе ГС при минимизации функции L. Для обновления каждого параметра θ ННС при ее обучении используется выражение

θ*=θηθLθ, (6)

где θ* – новое значение параметра; θ – его текущее значение; ηθ – темп изменения параметра; Lθ – частная производная функции (5) по этому параметру, найденная с использованием цепного правила. В таблице 1 представлены конкретные варианты правила (6), используемые для обновления параметров HHC в ходе обучения.

 

Таблица 1

Правила обновления параметров ННС

Table 1

Rules for updating NFN parameters

Параметр (q)

Темп изменения параметра ( )

Ограничение на новое значение параметра (q*)

y~k

ηy~=λy~k=1KLy~k2

wk

ηw=λwk=1KLwk2

0wk*1

cj,n

ηcj,n=λcn=1Nj=1MnLcj,n2

σj,n

ησj,n=λσn=1Nj=1MnLσj,n2

σj,n*0

 

Здесь λy~, λw, λc,λσ  – произвольно подбираемые размеры шага изменения соответствующего параметра сети в ходе обучения ННС. Наряду с числом используемых эпох обучения, пороговым значением функции потерь (5) и направлением градиента в ГС они рассматриваются как параметры обучения ННС.

Осуществляется контроль за тем, чтобы значения весов правил в процессе обучения не выходили за установленный диапазон [0, 1]. Для их изменения используется метод спроецированного градиентного спуска [19], а само новое значение веса определяется как wk*=maxminwk*,1,0.

Порядок обновления значений параметров y~k и wk не имеет значения, так как производные Ly~k и Lwk не зависят друг от друга. Это позволяет выполнять их обновление параллельно и независимо, что обеспечивает гибкость в оптимизации функции потерь и упрощает реализацию алгоритма.

Преимуществами АОРО являются высокая эффективность для небольших сетей и простота реализации, однако при его применении возможны проблемы, связанные с попаданием в локальные минимумы, а также он довольно медленный при использовании на сетях с большим числом параметров.

Гибридный алгоритм обучения

Этот алгоритм сочетает в себе как ГС, так и метод наименьших квадратов. Алгоритм ГС применяется для тонкой настройки нелинейных параметров c, σ и w, обеспечивая эффективное снижение общей ошибки (5). В то же время метод наименьших квадратов идеально подходит для быстрой и точной корректировки линейных параметров y~ благодаря его способности к минимизации ошибок в линейно зависимых данных [17].

Для адаптации ГА часть уже реализованного алгоритма АОРО изменена таким образом, что при обратном проходе не выполняется изменение линейных параметров y~ с помощью ГС. Вместо этого в начале каждой эпохи обучения осуществляется прямой проход по всему обучающему набору данных и с помощью метода наименьших квадратов линейные параметры y~ обновляются путем решения системы линейных алгебраических уравнений

y~=PTP1PTY,

где вектор целевых значений Y содержит реальные выходные данные обучающего набора, а матрица P формируется на основе значений выходов пятого слоя сети – апостериорных вероятностей (3), рассчитанных для всех обучающих примеров.

Таким образом, метод наименьших квадратов направлен на нахождение оптимального вектора характерных значений , минимизируя функцию потерь (5). После завершения этого шага происходит обновление нелинейных параметров c, σ и w в результате обратных проходов по каждой строке набора данных, как в АОРО.

Главными преимуществами ГА являются быстрая сходимость (особенно для набора данных с линейными зависимостями) и высокая точность обучения. Недостаток заключается в повышенной по сравнению с АОРО вычислительной сложности.

Метрики оценки качества обученной сети

Для оценки точности и эффективности ННС в задачах аппроксимации в программе используются перечисленные далее известные метрики качества [19, 20].

  • MSE (Mean Squared Error – среднеквадратическая ошибка). Измеряет среднюю квадратичную разницу между предсказанными y^i и реальными значениями yi, оценивая общую точность модели. Метрика особенно полезна для выявления больших ошибок, так как квадратичная функция штрафует их более сильно.
  • RMSE (Root Mean Squared Error – корень из среднеквадратической ошибки). Обеспечивает оценку ошибки в тех же единицах, что и исходные данные. В дальнейшем будем ориентироваться на эту ошибку для сравнения предложенной модели ННС с ННС ANFIS из пакета MATLAB, поскольку в ней по умолчанию используется именно эта метрика.
  • MAE (Mean Absolute Error – средняя абсолютная ошибка). Рассчитывает среднее абсолютное отклонение предсказанных значений y^i от фактических yi, являясь мерой линейной точности.
  • MAPE (Mean Absolute Percentage Error – средняя абсолютная процентная ошибка). Выражает MAE в процентах, что полезно для оценки относительной точности без привязки к масштабу данных.
  • R2 (коэффициент детерминации). Указывает на долю дисперсии зависимой переменной y, объясненную моделью, оценивая ее предсказательную силу.

Включение данных метрик в программу обусловлено их способностью к комплексной оценке точности, стабильности и адаптивности ННС к новым данным. Полезными для оценки качества обученной сети в контексте аппроксимации также являются скорректированный коэффициент детерминации R2adj, симметричная средняя абсолютная процентная ошибка SMAPE, взвешенная абсолютная процентная ошибка WAPE, средняя абсолютная масштабированная ошибка MASE. В дальнейшем планируется внедрить их в программу.

Функциональные возможности программы

Разработанная программа обеспечивает построение и обучение ННС на основе БЛВ-модели НВ, которые позволяют эффективно решать задачи аппроксимации функций нескольких переменных. Функциональные возможности программы и поддерживающий их реализацию графический интерфейс пользователя сопоставимы с инструментом ANFIS из пакета MATLAB.

Для разработки программы использован язык Java. Выбор обусловлен не только опытом работы авторов с ним, но и его кроссплатформенностью. К тому же последние версии среды исполнения значительно улучшили производительность (в том числе разработан высокопроизводительный вариант виртуальной машины Java – GraalVM), а язык предоставляет разработчику обширный API и множество библиотек, которые значительно упрощают разработку сложных приложений с продвинутым пользовательским интерфейсом.

Построение сети

Программа поддерживает использование трех типов наборов данных: обучающий, валидационный и тестовый. Для построения сети используется обучающий набор. Пользователь указывает обучающий набор данных, количество термов входных ЛП и начальное значение весов w. На этой основе программа, используя алгоритм сеточного разбиения, автоматически создает нечеткие правила, необходимые для формирования структуры ННС, и определяет начальные значения параметров сети c, σ, y~.

В программе не поддерживается возможность редактирования правил, сгенерированных на этапе построения сети, причем правила содержат только просто реализуемую операцию конъюнкции. Однако на практике использования в сетях типа ANFIS лишь конъюнкции в нечетких правилах достаточно для получения точного результата в решаемых задачах, что подтверждается не только работой автора сети ANFIS [21], но и широким использованием этой модели в большом количестве приложений.

Обучение сети

Для начала обучения нужно выбрать алгоритм обучения (АОРО или ГА), ввести целевое значение ошибки и количество эпох обучения сети. Во время обучения программа отображает динамические графики изменения ключевых метрик качества аппроксимации (http://www.swsys.ru/uploaded/image/2025-1/1.jpg), а также графики изменения значений параметров сети. Пользователь может в любой момент приостановить обучение сети, продолжить этот процесс или завершить его.

В программе реализована возможность настройки параметров обучения, позволяющая отключать и включать обновление параметров для каждого параметрического слоя ННС, менять шаги их изменения, выбирать направление градиента и стратегию изменения значений параметров обучения (шагов изменения параметров сети) во время обучения, а также вручную настраивать параметры стратегий обучения (http://www.swsys.ru/uploaded/image/2025-1/2.jpg).

В программе поддерживаются две стратегии изменения значений параметров обучения. Одна из них – классическая, используемая в MATLAB. Суть ее в том, что при уменьшении ошибки на протяжении четырех эпох значение шага увеличивается, а если ошибка претерпевает две последовательные комбинации из одного увеличения и одного уменьшения, шаг уменьшается. Вторая стратегия – возврат значений параметров на определенное задаваемое число эпох назад при увеличении ошибки.

Проверка сети

После завершения обучения сеть подлежит проверке с использованием наборов данных для валидации и тестирования, что позволяет оценить ее способность к обобщению и точность предсказаний на новых данных. Валидационный набор данных, который не участвует в обучении сети, позволяет настраивать параметры обучения и предотвращает ее переобучение. Тестовый набор аналогично валидационному состоит из данных, не участвующих в обучении, и предназначен для окончательной проверки обобщающей способности обученной сети после тонкой настройки и валидации, имитируя ее реальное применение [20]. Для проверки сети нужно выбрать один из предварительно загруженных наборов данных. Если набор данных корректен, то результаты, включая значения ключевых метрик, отобразятся в специализированном текстовом поле графического интерфейса программы.

Пользователь может проверять работу сети на собственных данных, вводя значения входных переменных для получения дефаззифицированного результата. Это позволяет проводить непосредственную проверку эффективности обученной ННС на специфичных для конкретного пользователя данных, упрощая процесс ее тестирования и адаптации под индивидуальные нужды. Результат расчета на основе текущих значений параметров сети отображается в специальном текстовом поле, включающем также и оценку ошибки вычисления в виде границ доверительного интервала ± RMSE.

Пользователь имеет возможность сохранить текущее состояние сети со всеми значениями параметров, чтобы в дальнейшем можно было к нему вернуться. При экспорте и выборе опции «Совместимость» сеть будет экспортирована в формат, совместимый с авторской программой для решения задач нечеткого вывода на основе БЛВ-модели.

Примеры создания сетей, ориентированных на решение практических задач аппроксимации

Для исследования возможностей предложенной модели ННС выбрано несколько наборов данных: два набора (Boston Housing Dataset – BH и Auto MPG – AM), взятых с репозиториев для исследователей в области машинного обучения и анализа данных Delve Datasets и UCI Machine Learning Repository, и два синтетических набора данных (СНД1 и СНД3), сформированных на основе вычисления заданной функции с последующим зашумлением.

Характеристика наборов данных

  1. Набор данных BH (https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html) содержит информацию о различных характеристиках жилых домов в окрестностях Бостона, включая среднее количество комнат в доме, уровень преступности, налоги на недвижимость и многое другое. Всего в наборе используются 14 характеристик, включая выходную переменную – сведения об их цене.
  2. Набор данных AM (https://archive.ics.uci.edu/dataset/9/auto+mpg) описывает различные характеристики автомобилей и содержит 9 переменных.

Наборы BH и AM имеют большую размерность, из-за чего их обработка проблематична даже в MATLAB: при попытке создать HHC на основе полного набора данных возникает нехватка памяти. Это связано с тем, что сложность ННС экспоненциально зависит от количества термов ЛП, построенных на основе входных переменных. Так как входные переменные в разной степени влияют на результат, было принято решение о сокращении размерности НД до двух входных переменных для AM и трех входных для BH, а также одной выходной переменной. Для этого была использована техника сокращения размерности пространства признаков на основе корреляционного анализа взаимосвязи между входными переменными и целевой переменной. Кроме того, были удалены строки с отсутствующими значениями переменных.

  1. СНД1 сгенерирован на основе вычисления функции одной переменной f(x) = – 4x3 + 8x2 + 5x – 1, x∈[–1,5; 3]. К результатам вычисления f(x) добавлен гауссов шум с распределением N(0;1) для имитации реальных условий измерений.
  2. СНД3 сгенерирован на основе функции трех переменных f(x, y, z) = x2 – 4y + 5z + 2, x, y, z∈[–4; 4]. К значениям функции f(x, y, z) добавлен гауссов шум с распределением N(0; 0,5) для имитации реальных условий измерений.

Итоговые характеристики используемых для создания и обучения ННС наборов данных приведены в таблице 2.

 

Таблица 2

Характеристики наборов данных, используемых для создания и обучения ННС

Table 2

Characteristics of datasets for creating and training NFN

Набор

данных

Число входных
переменных

Мощность набора данных

Исходное

Принятое

Всего строк

Обучающий

Валидационный

Тестовый

BH

13

3

452

271

90

91

AM

8

2

398

238

79

81

СНД1

1

1

200

120

40

40

СНД3

3

3

1000

600

200

200

 

Результаты обучения ННС

Сравниваются результаты обучения ННС на основе БЛВ-модели НВ и ННС типа ANFIS с одинаковыми значениями количества термов входных ЛП, равными трем. Для описания термов ЛП используются гауссовы ФП (1). Для обучения применяется ГА, так как он демонстрирует наилучшую скорость обучения для обеих моделей.

Для сравнения качества обучения сетей используется метрика качества RMSE, поскольку, с одной стороны, она позволяет адекватно оценить шум в данных, а с другой, это единственная метрика, доступная как в MATLAB, так и в разработанной авторами программе. Зависимость RMSE от числа использованных эпох обучения на начальном периоде обучения, когда наблюдается активное уменьшение ошибки, иллюстрируется графиками. Итоговая сходимость, достигнутая на сравниваемых моделях, характеризуется минимальными изменениями RMSE в последующих эпохах и представлена в виде итоговых значений в соответствующих таблицах.

Пример Boston Housing. График на рисунке 2 и таблица 3 иллюстрируют изменение RMSE на первых 50 эпохах обучения ННС. Отмечается значительное улучшение RMSE после обучения обеих моделей ННС. График подтверждает их схожесть по эффективности и темпу обучения. Однако на тестовом наборе данных ННС на основе БЛВ-модели НВ демонстрирует большее значение RMSE, что указывает на более высокую способность ANFIS к обобщению на новых данных. Тем не менее близость значений RMSE на обучающем и валидационном наборах подчеркивает большой потенциал ННС на основе БЛВ-модели НВ в качестве инструмента аппроксимации сложных функциональных зависимостей.

 

Рис. 2. График изменения RMSE для набора BH на первых 50 эпохах обучения

Fig. 2. Diagram of RMSE variation for the Boston Housing dataset during the first 50 training epochs

 

Таблица 3

Сравнение ННС по метрике RMSE для набора BH

Table 3

Comparison of NFNs by RMSE metric for the Boston Housing dataset

Тип ННС

ННС на основе БЛВ-модели НВ

ANFIS

Набор данных

обуч.

вал.

тест.

обуч.

вал.

тест.

До обучения

7,41

6,15

13,86

26,53

25,77

20,81

Лучшая эпоха

2,58

2,86

10,20

2,61

2,67

7,47

 

На рисунке 3 приведены графики изменения значения RMSE по мере увеличения числа эпох обучения с использованием алгоритмов АОРО и ГА для обучения ННС ANFIS (а) и ННС на основе БЛВ-модели НВ (б). Графики показывают, что при использовании ГА для обучения ANFIS RMSE быстро уменьшается и стабилизируется на низком уровне, в то время как при использовании АОРО уменьшение происходит медленнее и не достигает таких низких значений. Аналогичная тенденция наблюдается и для ННС на основе БЛВ-модели НВ, где ГА также обеспечивает более быстрое и эффективное снижение RMSE по сравнению с АОРО. Это подтверждает эффективность применения ГА для обучения ННС, поскольку он объединяет преимущества ГС и метода наименьших квадратов, позволяющие более эффективно находить оптимальные значения нелинейных и линейных параметров нейронов сети в процессе ее обучения.

 

Рис. 3. Графики изменения RMSE на наборе BH для алгоритмов обучения АОРО и ГА: а) для ННС ANFIS; б) для ННС на основе БЛВ-модели НВ

Fig. 3. Diagrams of RMSE variation on the Boston Housing dataset for error backpropagation and hybrid training algorithms: a) for ANFIS NFN; б) for NFN based on the Bayesian logical probabilistic model of fuzzy inference

 

Пример Auto MPG. Результаты обучения ННС на этом наборе приведены в таблице 4.

 

Таблица 4

Сравнение ННС по метрике RMSE для набора AM

Table 4

Comparison of NFN using RMSE metric for the auto MPG

Тип ННС

ННС на основе БЛВ-модели НВ

ANFIS

Набор данных

обуч.

вал.

тест.

обуч.

вал.

тест.

До обучения

13,915

14,234

13,428

24,95

24,426

24,609

Лучшая эпоха

4,04

4,2844

4,1762

4,0648

5,0002

4,2639

 

Видно, что разница значений RMSE у обеих моделей ННС невелика как на начальном этапе, так и после обучения, что свидетельствует о сравнимом качестве аппроксимации данных обеими моделями. При этом ННС на основе БЛВ-модели НВ в отличие от ANFIS демонстрирует тенденцию уменьшения значения этого показателя в ходе обучения.

Пример СНД1. Результаты обучения сетей приведены в таблице 5.

 

Таблица 5

Сравнение ННС по метрике RMSE для СНД1

Table 5

Comparison of NFN by RMSE metric for synthetic dataset 1

Тип ННС

ННС на основе БЛВ-модели НВ

ANFIS

Набор данных

обуч.

вал.

тест.

обуч.

вал.

тест.

До обучения

9,914

12,569

9,367

8,238

10,238

7,599

Лучшая эпоха

3,726

4,986

4

3,941

4,313

3,758

 

Анализ результатов показывает, что обе модели ННС достигли значительного уменьшения RMSE по итогам обучения. График изменения RMSE (http://www.swsys.ru/uploaded/image/2025-1/3.jpg) демонстрирует стабильное улучшение качества аппроксимации для обеих моделей по мере их обучения. По завершении этапа обучения ННС на основе БЛВ-модели НВ достигает более высокого качества, чем ANFIS. Согласно данным таблицы 5, она показывает лучшие результаты на всех типах наборов данных, что подтверждает ее высокую адаптивность и способность к аппроксимации нелинейных зависимостей в условиях шума.

Пример СНД3. Результаты обучения сетей приведены в таблице 6.

 

Таблица 6

Сравнение ННС по метрике RMSE для СНД3

Table 6

Comparison of NFN by RMSE metric for synthetic dataset 3

Тип ННС

ННС на основе БЛВ-модели НВ

ANFIS

Набор данных

обуч.

вал.

тест.

обуч.

вал.

тест.

До обучения

70,33

68,958

70,663

61,783

62,496

59,67

Лучшая эпоха

0,7153

0,7908

0,7220

0,5237

0,5203

0,5426

 

На СНД3 было проведено множество экспериментов с обучением ННС на основе БЛВ-модели НВ и подбора наилучших значений параметров обучения. В таблице 6 представлен результат с наименьшей полученной ошибкой, достигнутый при лимите эпох 2 500, начальных шагах для весов правил и параметров ФП 0,00005 и 0,0005 соответственно, при количестве термов входных ЛП, равном 3, и начальных весах правил 0,5. Параметры, установленные для обучения ННС ANFIS (количество термов входных ЛП – 3, количество эпох - 10 000), при этом не менялись.

График (http://www.swsys.ru/uploaded/image/2025-1/4.jpg) показывает, что ННС на основе БЛВ-модели НВ достигает стабильно низких значений ошибки быстрее, чем ANFIS, что свидетельствует в пользу предложенного подхода.

Из таблицы 6 видно, что ANFIS показывает лучшие результаты на тестовом наборе данных по сравнению с предложенной моделью ННС. Тем не менее результаты говорят и о высоком потенциале ННС на основе БЛВ-модели НВ как универсальном аппроксиматоре сложных функциональных зависимостей.

Несмотря на то, что для ННС на основе БЛВ-модели НВ при работе с СНД3 не удалось получить значение RMSE, меньшее 0,7, скорее всего, это возможно при подборе подходящей стратегии обучения, поскольку ННС данного типа имеет больше параметрических слоев, чем ANFIS, и поэтому может быть настроена более гибко. Однако такая настройка ведет к возрастанию сложности обучения и требует тщательного подбора значений таких параметров обучения, как шаги изменения параметров сети λθ. Это критически важно для обеспечения сходимости, следовательно, требует дополнительных исследований и экспериментов для достижения наилучших результатов.

По мнению авторов, ННС как гибридная система, объединяющая нейросетевой и нечеткий подходы, имеет особые перспективные достоинства в контексте исследований в области искусственного интеллекта. Поскольку в ходе обучения ННС меняются сгенерированные при ее создании параметры ФП термов ЛП, а также веса правил, по завершении ее обучения нейронная структура ННС реализует нечеткие правила, подобные правилам предметных экспертов и релевантные той задаче, на решение которой ориентирована данная ННС. После оптимизации эти правила могут быть извлечены из ННС и представлены в лингвистически интерпретируемом виде, что позволяет объяснить закономерности, выявленные ННС в предъявленном ей наборе данных. Это открывает возможности использования ННС в актуальном направлении исследований технологий искусственного интеллекта, известном как объяснимый искусственный интеллект и ставящем целью разработку интеллектуальных систем, решения которых могут быть объяснены человеком [22].

Заключение

В статье рассмотрена модель ННС на основе БЛВ-модели НВ. Представлен разработанный авторами программный инструмент по созданию и обучению ННС этого типа, который предназначен для решения задач, сводимых к аппроксимации функциональных зависимостей, а также для исследования эффективности и возможностей использования ННС на основе БЛВ-модели НВ при решении таких задач. Эксперименты по построению ННС на основе БЛВ-модели НВ с использованием программы показали следующее.

  • ННС, обученные с помощью алгоритма обучения ГА, достигают лучших результатов аппроксимации, чем при использовании АОРО, что связано с объединением в ГА преимуществ градиентного спуска и метода наименьших квадратов. При этом скорость обучения ННС зависит от степени линейности зависимости выходной переменной от входных. Если в данных присутствует нелинейность, то ННС обучается медленнее даже при использовании ГА.
  • Шаги изменения нелинейных параметров ННС (весов нечетких правил и параметров ФП входных ЛП) должны быть сравнимы друг с другом и не превышать 0,01, а шаг для линейных параметров выходной ЛП должен изменяться в пределах 0,1–1, чтобы обновление параметров сети выполнялось согласованно и ошибка постоянно уменьшалась в процессе обучения.

В целом проведенные эксперименты позволяют сделать оптимистичные выводы о способности ННС этого типа к обучению и решению практических задач в областях, в которых обычно применяются ННС типа ANFIS, а также о сопоставимой эффективности этих сетей.

В дальнейшем планируется продолжить исследование способов согласования параметров обучения, в том числе использование стратегий с асинхронным изменением шагов обучения. Помимо этого, предполагается расширить набор доступных в программе типов ФП и алгоритмов генерации правил (например, основанных на методах кластеризации данных, а также на генетических алгоритмах) и обучения сети, метрик оценок качества обучения сети, а также дополнить список стратегий обучения. Кроме того, планируется задействовать методы оптимизации баз нечетких правил для улучшения производительности ННС и провести сравнение этих методов для оценки их эффективности при решении различных задач. Для этого могут быть задействованы генетические алгоритмы, методы роя частиц и другие подходы автоматической оптимизации нечетких правил.

Необходимо отметить, что у авторов вызывает интерес и такое возможное направление использования ННС на основе БЛВ-модели НВ, как объяснимый искусственный интеллект.

 

×

About the authors

Georgy A. Khamchichev

Author for correspondence.
Email: gyqn@yandex.ru

Postgraduate Student

Russian Federation

Gulnara I. Kozhomberdieva

Email: kgi-liizht@yandex.ru

Cand. of Sci. (Engineering), Associate Professor

Russian Federation

References

  1. Borisov, V.V., Kruglov, V.V., Fedulov, A.S. (2018) Fuzzy Models and Networks. Moscow, 285 p. (in Russ.).
  2. de Campos Souza, P.V. (2020) ‘Fuzzy neural networks and neuro-fuzzy networks: A review of the main techniques and applications used in the literature’, Applied Soft Computing, 92, art. 106275. doi: 10.1016/j.asoc.2020.106275.
  3. Talpur, N., Abdulkadir, S.J., Alhussian, H., Hasan, M.H., Aziz, N., Bamhdi, A. (2023) ‘Deep Neuro-Fuzzy System application trends, challenges, and future perspectives: A systematic survey’, Artificial Intelligence Review, 56, pp. 865–913. doi: 10.1007/s10462-022-10188-3.
  4. Karaboga, D., Kaya, E. (2019) ‘Adaptive network based fuzzy inference system (ANFIS) training approaches: a comprehensive survey’, Artificial Intelligence Review, 52, pp. 2263–2293. doi: 10.1007/s10462-017-9610-2.
  5. Averkin, A.N., Yarushev, S.A., Pavlov, V.Yu. (2017) ‘Cognitive hybrid systems for decision support and forecasting’, Software & Systems, 30(4), pp. 632–642 (in Russ.). doi: 10.15827/0236-235X.120.632-642.
  6. Biryulin, V.I., Kudelina, D.V., Serebrovsky, V.I., Safronov, R.I., Gnezdilova, Yu.P. (2021) ‘The use of fuzzy neural networks for studying the aging processes of the cable lines insulation’, Proc. Sci.-Pract. Conf. Modern Resource-Efficient Technologies and Technical Means in Agriculture, pp. 208–213 (in Russ.).
  7. Ghenai, C., Al-Mufti, O.A.A., Al-Isawi, O.A.M., Amirah, L.H.L., Merabet, A. (2022) ‘Short-term building electrical load forecasting using adaptive neuro-fuzzy inference system (ANFIS)’, J. of Building Engineering, 52, art. 104323. doi: 10.1016/j.jobe.2022.104323.
  8. Soleimani, R., Saeedi Dehaghani, A.H. (2023) ‘Insights into the estimation of surface tensions of mixtures based on designable green materials using an ensemble learning scheme’, Sci. Reports, 13, art. 14145. doi: 10.1038/s41598-023-41448-z.
  9. Ravichandran, B.D., Keikhosrokiani, P. (2023) ‘Classification of Covid-19 misinformation on social media based on neuro-fuzzy and neural network: A systematic review’, Neural Computing and Applications, 35(1), pp. 699–717. doi: 10.1007/s00521-022-07797-y.
  10. Szafranko, E., Srokosz, P.E., Jurczak, M., Śmieja, M. (2022) ‘Application of ANFIS in the preparation of expert opinions and evaluation of building design variants in the context of processing large amounts of data’, Automation in Construction, 133, art. 104045. doi: 10.1016/j.autcon.2021.104045.
  11. Vassilyev, S.N., Kudinov, Yu.I., Pashchenko, F.F., Durgaryan, I.S. et al. (2017) ‘Intelligent control systems and fuzzy controllers. Part II. Trained fuzzy controllers, fuzzy PID controllers’, Sensors and Systems, (2), pp. 3–12 (in Russ.).
  12. Diveev, A.I., Poltavskiy, A.V., Alhatem, A. (2021) ‘Neuro-fuzzy control of the lumber drying process’, Reliability and Quality of Complex Systems, (3), pp. 93–97 (in Russ.). doi: 10.21685/2307-4205-2021-3-12.
  13. Mondal, N., Banik, S., Paul, S., Sarkar, S., Mandal, S., Ghosh, S. (2024) ‘ANFIS-TLBO-based optimization of drilling parameters to minimize burr formation in aluminum 6061’, Multiscale and Multidisciplinary Modeling, Experiments and Design, 7, pp. 3607–3623. doi: 10.1007/s41939-024-00433-3.
  14. Kozhomberdieva, G.I., Burakov, D.P., Khamchichev, G.A. (2022) ‘The structure of a neuro-fuzzy network based on Bayesian logical-probabilistic model’, Soft Measurements and Computing, 61(12), pp. 52–64 (in Russ.). doi: 10.36871/2618-9976.2022.12.004.
  15. Kozhomberdieva, G.I., Burakov, D.P., Khamchichev, G.A. (2022) ‘Neural network interpretation of Bayesian logical-probabilistic fuzzy inference model’, Proc. ISAIC, 1, pp. 50–56. doi: 10.5220/0011901700003612.
  16. Khamchichev, G.A., Kozhomberdieva, G.I. (2023) ‘On setting up and the training capabilities of a neuro-fuzzy network based on a Bayesian logical-probabilistic model’, Proc. Int. Conf. SCM, 1, pp. 29–33 (in Russ.).
  17. Osowski, S. (2000) Sieci Neuronowe Do Przetwarzania Informacji. 420 p. (Russ. ed.: (2018) Moscow, 448 p.).
  18. Kozhomberdieva, G.I. (2019) ‘Bayesian logical-probabilistic model of fuzzy inference’, Proc. Int. Conf. SCM, 1, pp. 35–38 (in Russ.).
  19. Murphy, K.P. (2022) Probabilistic Machine Learning: An Introduction. Mit Press, 864 p. (Russ. ed.: (2022) Moscow, 940 p.).
  20. Bishop, C.M. (2006) Pattern Recognition and Machine Learning. Springer Publ, 738 p. (Russ. ed.: (2020) St. Petersburg, 940 p.).
  21. Jang, J.-S.R. (1993) ‘ANFIS: Adaptive-network-based fuzzy inference system’, IEEE Transactions on Systems, Man, and Cybernetics, 23(3), pp. 665–685. doi: 10.1109/21.256541.
  22. Averkin, A.N., Yarushev, S.A. (2022) ‘Study of the development of explainable artificial intelligence systems’, Proc. IMMV-2022, pp. 127–134 (in Russ.).

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Fig. 1. Structure of NFN based on Bayesian logical probabilistic model of fuzzy inference with functions of probabilistic logic

Download (127KB)
3. Fig. 2. Diagram of RMSE variation for the Boston Housing dataset during the first 50 training epochs

Download (84KB)
4. Fig. 3. Diagrams of RMSE variation on the Boston Housing dataset for error backpropagation and hybrid training algorithms: a) for ANFIS NFN; б) for NFN based on the Bayesian logical probabilistic model of fuzzy inference

Download (98KB)

Copyright (c) 2025 Khamchichev G.A., Kozhomberdieva G.I.

Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».