Fuzzy logic and machine learning methods applied to the analysis of industrial power consumption under the condition of uncertainty

Cover Page

Cite item

Full Text

Abstract

Introduction. Recently, the fuzzy logic method has been widely implemented in solving various problems of economic research, including theoretical analysis of the economy and its resource dependence, the study of innovative processes in a resource-type economy.

Purpose. The purpose of the research is to analyze the dependence of industrial power consumption from various social economic factors with the fuzzy modeling method. This method is particularly well suited for modeling ill-defined systems with the significant uncertainty about the nature and range of key input variables and the underlying relationships between them. This system could be illustrated by the economy of modern Russia at the time of sanctions imposed by unfriendly states.

Materials and methods. The work refers to fuzzy modeling and machine learning methods. A random forest algorithm was used to select predictors and for comparative analysis.

Results. The results of fuzzy modeling were compared with the results obtained by modeling the analyzed relationship with multiple regression, and with the results obtained by applying the random forest method with regression decision trees to the data under study. Fuzzy logic-based modeling of the above-described dependence in the context of uncertainty is shown to be more adequate compared to regression-based modeling (including the random forest method).

Conclusion. The proposed fuzzy system (fuzzy inference system) can be used to study the influence of changes in any input factor or their combination on changes in industrial power consumption. The fuzzy system could reveal how much various production locations could change industrial electricity consumption or analyze the feasibility of a location in terms of access to labor resources. It is also possible to study how much the number of employees associated with the outflow of labor resources could change industrial electricity consumption.

Full Text

Введение

В последнее время инструментарий нечеткой логики все чаще используется в экономических исследованиях, в частности для моделирования и прогнозирования экономических процессов. Применение аппарата нечеткой логики широко реализуется при решении различных задач экономических исследований, включая теоретический анализ развития ресурсной зависимости экономики, изучение инновационных процессов в экономике ресурсного типа и построение различных прогнозов экономического развития [1]. Эта теория позволяет объединить количественные и качественные свойства объекта моделирования, а также получить решение различных смежных задач на основе одной базы знаний и обучения нечетких моделей, что дает возможность повысить точность и достоверность результатов.

В экономике, как и в любой другой социальной науке, неизбежны оценочные суждения относительно метода. Например, одно из таких суждений заключается в том, что неоклассические модели рационального могут адекватно описывать экономику, но нуждаются в дополнительных модификациях. Таким образом, можно утверждать, что экономическая поведенческая модель, открытая для неортодоксальных подходов, будет плодотворной в тех случаях, когда моделируемые явления определяются как нечеткие. Традиционно формальные (но неявно – и вербальные) экономические модели используют классическую математику, основанную на бинарной логике. В рамках этой формальной структуры элемент либо принадлежит определенному множеству, либо нет. Третьей возможности не существует. Но она появляется при наличии размытой связи элемента с множеством, что и реализуется в рамках нечеткой логики.

Особенно актуальным является применение методов нечеткой логики, наряду с машинным обучением, в эконометрике. Традиционные эконометрические модели обычно предполагают, что взаимосвязи между зависимыми и независимыми переменными являются линейными. В реальности многие из основных взаимоотношений между элементами экономической системы, вероятно, являются нелинейными. В настоящее время методы оценки параметров нелинейных эконометрических моделей достаточно хорошо развиты. Поэтому методы нечеткой логики и машинного обучения могут дополнять и уточнять результаты, полученные эконометрическими методами. Кроме того, следует иметь в виду, что теоретические концепции, лежащие в основе эмпирических моделей, часто плохо определены и может возникнуть неопределенность в отношении точного значения и диапазона ключевых входных переменных. В этом случае использование нечеткой логики и машинного обучения будет более предпочтительным.

Одна из целей данной статьи – продемонстрировать, что описанные проблемы в эконометрике можно эффективно решать с помощью процедуры моделирования на основе нечеткой логики. Этот метод особенно хорошо подходит для оценки плохо определенных систем, в которых существует значительная неопределенность относительно природы и диапазона ключевых входных переменных и основных взаимосвязей между ними. Такой системой является экономика современной России в период наложенных на нее санкций со стороны недружественных государств. С некоторой долей условности применение метода нечеткой логики для моделирования взаимосвязей между переменными можно считать одним из методов непараметрической оценки регрессионных зависимостей1.

В данной статье рассмотренные проблемы решаются на примере построения нечеткой системы, моделирующей зависимость промышленного электропотребления от различных социально-экономических факторов. Результаты нечеткого моделирования сравниваются с результатами, полученными при моделировании анализируемой зависимости с помощью множественной регрессии, и с результатами, полученными при применении метода случайного леса, использующего регрессионные деревья решений, к исследуемым данным. Разработанная нечеткая система (система нечеткого логического вывода) может использоваться для изучения влияния изменения любого входного фактора или комбинации факторов на изменение промышленного электропотребления, что и является главной целью исследования. При этом рабочая гипотеза настоящей статьи заключается в утверждении о том, что моделирование исследуемой зависимости посредством нечеткой модели в условиях неопределенности является более адекватным по сравнению с моделированием анализируемой зависимости с помощью регрессионных методов (включая метод случайного леса).

Выбор объекта исследования определяется тем, что электроэнергетика является особой отраслью промышленности, определяющей развитие территорий страны, осуществляемое, в частности, в соответствии со Стратегией пространственного развития Российской Федерации. Без электроэнергии в современном мире невозможно существование промышленного производства. Ее дефицит приводит к увеличению потерь в экономике, росту тарифов на снижению инвестиционной привлекательности территорий для размещения на них новых промышленных объектов.

В данном исследовании реализуется трехэтапная процедура. На первом этапе происходит отбор эмпирических данных (факторов), в наибольшей степени связанных с электропотреблением, с помощью алгоритма случайного леса. На втором этапе синтезируются нечеткие правила из отобранных эмпирических данных с помощью субтрактивной кластеризации. На третьем этапе происходит настройка параметров нечеткой модели посредством адаптивных нейронных сетей нечеткого вывода (ANFIS-алгоритм) [2; 3]. Более подробно процедура описана в разделе «Методика и данные».

Обзор литературы

Краткий обзор истории возникновения нечеткой логики представлен в статье [4]. Показано, что широкое применение нечеткая логика находит в следующих областях экономических исследований: при оценке развития отраслей экономики, в страховании, при поддержке принятия решений, моделировании экономики регионов и стран, прогнозировании и т. д. В указанной работе делается вывод, что множество экономических исследований, использующих преимущества нечеткой логики, свидетельствует о ее применимости для изучения самых различных аспектов экономического развития.

Нечеткая логика в контексте экономических исследований используется во многих работах. Например, в статье [5] представлен новый способ измерения конвергенции временных рядов с применением метода нечеткой кластеризации C-средних. Нечеткая группировка данных дает более ясное представление о том, что разница в результатах будет сходиться в группах.

В работе [6] рассматривается использование нечеткого моделирования в контексте эконометрического анализа как временных рядов, так и перекрестных данных и демонстрируется полупараметрическая методология идентификации и оценки модели, основанная на алгоритме нечеткой кластеризации C-средних и подходе Такаги – Сугено [7] к моделированию нечетких систем. Эта методология исключительно гибка и обеспечивает удобный метод работы с нелинейными моделями больших размерностей. В этом отношении она имеет явные теоретические преимущества перед непараметрической ядерной регрессией. Обнаружено, что эти преимущества также сохраняются эмпирически с точки зрения согласия в ряде экономических приложений.

Статья [8] посвящена прогнозированию спроса на воздушный транспорт. Общее количество пассажиров используется в качестве показателя спроса. Однако временные ряды количества авиапассажиров обычно имеют сложное поведение из-за их неравномерности, высокой волатильности и сезонности. В работе [8] предлагается новый, гибридный подход, сочетающий анализ сингулярного спектра (SSA), систему нечеткого вывода на основе адаптивной сети (ANFIS) и улучшенную оптимизацию (IPSO) для краткосрочного прогнозирования пассажиропотока. Алгоритм SSA используется для выявления тенденций и сезонности спроса на воздушные перевозки, а технологии искусственного интеллекта, включая ANFIS и IPSO, применяются для борьбы с его неравномерностью и волатильностью. Данные об авиапассажирах Гонконга собираются для создания и проверки модели прогнозирования. Эмпирические результаты ясно указывают на огромный потенциал, которым обладает предлагаемый подход к прогнозированию спроса на воздушный транспорт, и его можно рассматривать как жизнеспособную альтернативу.

В работе [9] используется концепция нечеткой логики для определения уровня экономического развития любой страны. Нечеткая логика – идеальный инструмент для решения расплывчатых, плохо структурированных и неопределенных сценариев, которые можно встретить как в сфере бизнеса, так и в экономике. Это основная причина, по которой в указанном исследовании используется нечеткая логика. Применяются пять входных переменных, а именно: численность населения, валовой внутренний продукт (ВВП), уровень безработицы, уровень инфляции, темпы роста промышленного производства. Полученный экономический уровень сравнивается с ранее использованным методом сравнительного анализа. Отметим, что в работе [9] нечеткий логический выход осуществлялся без обучения экспериментальной выборки посредством ANFIS-алгоритма и без обоснованного выбора данных.

В статье [10] на основе известных базовых подходов разработана процедура формализации анализа альтернатив на основе преимущественно качественной исходной информации В результате исследования выявлена приоритетность диверсификации первичных энергоносителей для обеспечения полезной энергией потребителей Ямала. Таким выбором энергоносителя, согласно проведенному модельному эксперименту, оказалось предпочтение атомной энергии. Включение метода нечетких множеств в модельно-методический аппарат многокритериального выбора возможно и в отношении комбинированных вариантов. Результаты работы могут быть использованы при подготовке комплексных стратегий и схем размещения отрасли специализации и ее энергетической инфраструктуры для удаленных арктических территорий.

Модель нечеткой привлекательности выхода на рынок (FAME) разработана для решения проблемы принятия решений по выводу продукта на альтернативные рынки [11]. FAME – это модель выбора выхода на рынок, специально разработанная для ситуаций, когда информация является ограниченной и (или) неоднозначной и существует высокий уровень неопределенности. Таким образом, модель FAME представляет собой простой в реализации инструмент, который поддерживает обоснованный подход к решениям о выборе рынка. В модели используются мнения экспертов относительно четырех факторов: 1) соответствие маркетингового комплекса фирмы на каждом рынке; 2) соответствие маркетингового комплекса основного конкурента на каждом рынке; 3) экологические условия на каждом рынке; 4) стратегическая важность каждого рынка для фирмы.

Применение алгоритма модели проводится для решения выбора рынка небольшой болгарской винодельни [11]. Простота использования актуальна для малых и средних компаний, поскольку для выполнения алгоритмических расчетов достаточно электронной таблицы.

Некоторые важные политико-экономические сценарии, включающие поиск и эксплуатацию нефти и газа в экономической зоне Кипра, были смоделированы и исследованы с помощью подходящих нечетких когнитивных карт в работе [12]. Во взаимосвязанной динамике были приняты во внимание различные важные динамические параметры, отражающие интересы Республики Кипр, а также интересы греческой общины. Разработанная система может быть использована для исследования влияния изменения любого параметра или комбинации параметров на рост и стабильность остальных параметров. Были реализованы, рассмотрены и оценены различные сценарии воздействия на экономику, политику и военное вмешательство.

Теория нечетких множеств оказалась полезной в прогнозировании стоимости страховых убытков [13]. Методы нечеткой логики используются также для поддержки процесса принятия управленческих решений в производственном менеджменте и повышения управляемости производственных процессов [14]. Авторы приведенной публикации делают следующий вывод: «Применение метода нечеткой логики предполагает улучшение количественного информационного обоснования мониторинга и контроля рисков, что приводит к аналитически определенным приоритетам для параметров, включенных в анализ, и делает их информативными и полезными» [14]. Отметим также, что процедура нечеткого многокритериального выбора широко используется при оценке эффективности инвестиционных проектов выбора продуктовых и производственных программ [15–17]. В цитируемых работах метод нечетких множеств включен в модельно-методический аппарат многокритериального выбора в отношении комбинированных вариантов различных программ.

Таким образом, из обзора литературы следует, что использование нечеткой логики в настоящее время широко распространено в различных областях экономических исследований. Но работы в области синтеза нечеткой логики, адаптивных нейронных сетей и машинного обучения эмпирических данных для решения задач, связанных с взаимовлиянием социально-экономических факторов, практически отсутствуют. В этом состоит научная новизна и актуальность цели настоящего исследования.

Методика и данные

Для решения поставленной задачи в статье использовался подход на основе нечеткой логики, теоретические основы которого разработаны Р. Беллманом и Л. Заде [18].

Объектной частью нечеткой логики являются нечеткие множества, с помощью которых описывается неопределенность и нечеткость [19]. Формально нечеткое множество Ã на универсальном множестве X описывается упорядоченной парой <μA(x), x>, где x является элементом носителя исходного множества X, а μA(x) – степенью принадлежности, которая ставит с помощью функции принадлежности в соответствие каждому из элементов x Î X некоторое действительное число из интервала [0, 1].

Важнейшей частью нечеткого моделирования является аппроксимация зависимости «вход – выход» в результате логических операций над нечеткими множествами. Эта аппроксимация является нечетким логическим выводом. Система нечеткого логического вывода включает в себя такие элементы, как фаззификатор, нечеткая база знаний, функция принадлежности, машина нечеткого вывода и дефаззификатор. Более подробно о каждом из приведенных элементов системы нечеткого логического вывода можно узнать из работы [19].

В нашем исследовании проектируется нечеткая система Сугено [7]. Особенностью нечеткого логического вывода Сугено является то, что заключения правил в базе знаний Сугено задаются не нечеткими термами2, а линейной функцией от входных переменных (предикторов). Иными словами,

dj=bj0+i=1nbjixi, (1)

где dj – заключение j-го правила, bj0,…,bjn – действительные числа, x1xn – элементы вектора входных переменных.

При проектировании этой нечеткой системы на первом этапе набор эмпирических данных разделяется на обучающую и тестовую выборки и происходит синтез нечетких правил из обучающей выборки посредством субтрактивной кластеризации. На втором этапе производится настройка параметров нечеткой системы с помощью ANFIS-алгоритма и улучшение нечеткой модели с помощью ANFIS-обучения соответствующей выборки. Адаптивная система нейро-нечеткого вывода (ANFIS) – это тип искусственного интеллекта, который сочетает в себе преимущества как нейронных сетей, так и систем нечеткой логики. ANFIS способна учиться и принимать решения на основе данных, как нейронная сеть, при этом она может обрабатывать неточные или неполные данные, как система нечеткой логики. Это делает ANFIS идеальным для приложений, где данные постоянно меняются или не всегда точны, для неструктурированных временных рядов и т. д. ANFIS – мощный инструмент, который может помочь в повышении точности прогнозов, сделанных моделями искусственного интеллекта. Кроме того, ANFIS способна сократить время, необходимое для обучения моделей искусственного интеллекта. ANFIS-алгоритм также эффективен при обработке нелинейных данных, которые часто встречаются в реальных приложениях. Данный алгоритм реализует систему нечеткого вывода Сугено в виде пятислойной нейронной сети прямого распространения сигнала. Рассчитываются ошибки моделирования на обучающей и тестовой выборках до и после обучения при оптимальном количестве итераций обучения.

Количество входных переменных (предикторов) в нечеткой системе Сугено не должно превышать количество настраиваемых параметров этой системы. Настраиваемыми параметрами являются коэффициенты в заключениях правил нечеткой базы знаний bj0,…,bjn в (1) и параметры функций принадлежности термов входных переменных x1xn. Количество параметров функций принадлежности определяется их видом. Например, для гауссовой функции принадлежности μ(u)=exp(ub)22c2 количество настраиваемых параметров равно двум: координате максимума b и коэффициенту концентрации c. Исходя из сказанного количество входных переменных определяется размером обучающей выборки эмпирических данных. Если размер этой выборки недостаточно большой, то количество входных переменных следует ограничивать, учитывая степень важности их влияния на выходную переменную3.

Для обоснования выбора наиболее важных в контексте их влияния на электропотребление предикторов в данной статье применялся алгоритм случайного леса, использующий регрессионные деревья решений [20]. Кроме того, метод случайного леса применялся нами для предсказательных целей к исходным данным.

Случайный лес – это метод коллективного машинного обучения, который генерирует множество деревьев посредством итеративной сегментации [21]. Он применяется как к задачам классификации, так и к регрессионным задачам. При задачах классификации в каждом узле дерева находится его принадлежность к классу (в зависимости от того, каких элементов больше попало в этот узел), а при задачах регрессии – принадлежность к целевой функции соответственно. Эта процедура заключается во взятии большого количества обучающих выборок из генеральной совокупности, построении предсказательной модели по каждой выборке и усреднении полученных результатов.

Создавая множество деревьев решений, метод стремится повысить ценность классификации (снизить дисперсию). Скорость получения точного результата возрастает с увеличением количества деревьев. Корневой узел определяется случайным образом, что является основным отличием алгоритма дерева решений от алгоритма случайного леса. В алгоритме случайного леса каждое дерево строится с использованием обучающей бутстреп-выборки4 из имеющегося набора данных. Корреляция между деревьями не допускается. Метод случайного леса выбирает для предсказания дерево решений с лучшим результатом из множества деревьев, которые работают независимо друг от друга, то есть выбирается дерево, набравшее наибольшее количество голосов (majority vote). Полученные на основе обученных деревьев предсказания затем усредняются.

Используя модель случайного леса в контексте данной статьи, можно преодолеть ограничения традиционных линейных моделей, выявить нелинейные зависимости, оценить важность переменных и сформировать более полное понимание сложных взаимосвязей между электропотреблением и остальными социально-экономическими факторами. Ранжируя важность переменных, можно получить представление о факторах, которые оказывают наибольшее влияние на электропотребление. Важность переменных вычисляется как среднее снижение индекса Джини для задач классификации или как среднее значение суммы квадратов остатков для регрессионных задач.

Как отмечалось, метод нечеткого моделирования особенно хорошо подходит для оценки плохо определенных систем, каковой является экономика России в период наложенных на нее жестких санкций, а именно с 2022 г. по текущий момент. К сожалению, официальные данные Росстата за 2023 г. по интересующим нас показателям (в частности, электробаланс РФ) отсутствуют. Поэтому информационной основой исследования является официальная статистика Росстата за 2022 г. в разрезе 77 регионов РФ. Именно для этого числа регионов имеются подходящие для анализа пространственные статистические данные. При этом статистические данные по Тюменской области рассматривались отдельно от данных по Ханты-Мансийскому и Ямало-Ненецкому автономным округам. Таким образом, размер выборки равнялся 77 наблюдениям. Выходной зависимой переменной стало электропотребление в промышленном секторе производства (млн кВт×ч), включающем в себя добычу полезных ископаемых, обрабатывающее производство, обеспечение электрической энергией, газом и паром; кондиционирование воздуха; водоснабжение; водоотведение, организацию сбора и утилизации отходов, деятельность по ликвидации загрязнений и сектор строительства.

Список исследуемых социально-экономических факторов (предикторов) представлен в табл. 1. Выбор факторов осуществлялся в соответствии с моделью STIRPAT (stochastic impacts by regression on population, affluence and technology)5. Следует обратить внимание, что среди возможных очевидных факторов, влияющих на электропотребление, присутствует показатель отправки грузов железнодорожным транспортом общего пользования. Это связано с тем, что, по данным портала «ИнфоТЭК»6, начиная с 2022 г. объединенные энергетические системы (ОЭС) Востока и Сибири выигрывают за счет роста экспорта в азиатском направлении, а также в целом переориентации экономики на Восток и роста потребления на железнодорожном транспорте и в добывающей промышленности (+2 %). При этом южные ОЭС поддерживают спрос на электроэнергию, растущий за счет усиления туристического потока. В то же время ОЭС Средней Волги (–0,2 % потребления за первые восемь месяцев года) и Северо-Запада (–0,8 %) ощутили эффект ухода западных компаний из России и прекращения экспорта электроэнергии в страны ЕС. Таким образом, показатель отправки грузов железнодорожным транспортом общего пользования должен существенно влиять на промышленное электропотребление. Кроме того, поскольку в промышленный сектор включен сектор строительства, в список предикторов добавлен показатель ввода в действие жилых домов на 1000 человек населения. Для сравнения результатов нечеткого моделирования с результатами множественной регрессии все данные логарифмировались (натуральный логарифм).

 

Табл. 1. Список исследуемых предикторов

Table 1. A list of analyzed predictors

Предиктор

Ед. изм.

Объем промышленного производства

Млн руб.

Инвестиции в основной капитал на душу населения

Руб.

Численность занятых

Тыс. чел.

Располагаемые доходы на душу
населения

Руб. (в мес.)

Уровень урбанизации региона

%

Выработка электроэнергии

Тыс. кВт×ч/чел.

Отправление грузов железнодорожным транспортом общего пользования

Млн т

Ввод в действие жилых домов
на 1000 человек населения

Кв. м

Источник: составлено автором.

 

 

Следует обратить внимание на то, что среди предикторов в табл. 1 отсутствует показатель валового регионального продукта (ВРП), данные по которому со второго квартала 2022 г. не публикуются Росстатом7. Но, на наш взгляд, более информативным в этом контексте является показатель объема промышленного производства.

Результаты исследования и их обсуждение

Как отмечалось, количество входных переменных при нечетком моделировании определяется размером обучающей выборки эмпирических данных. При недостаточно большом размере выборки количество входных переменных следует ограничивать, учитывая степень важности их влияния на выходную переменную. Тестовые результаты нечеткого моделирования показали, что максимально возможное количество входных переменных (предикторов) для исследуемой выборки данных (77 наблюдений) должно равняться пяти. Поэтому для отбора указанного количества предикторов необходимо провести ранжирование их общего количества по степени важности. Результаты данной процедуры приведены в табл. 2.

 

Табл. 2. Степень важности предикторов

Table 2. Predictorspriority

Предиктор

%IncMSE

Объем промышленного производства

19,51

Инвестиции в основной капитал на душу населения

15,22

Численность занятых

11,93

Располагаемые доходы на душу
населения

2,30

Уровень урбанизации региона

8,03

Выработка электроэнергии

2,23

Отправление грузов железнодорожным транспортом общего пользования

5,21

Ввод в действие жилых домов
на 1000 человек населения

0,70

Источник: расчеты автора.

 

 

Для отбора предикторов применялся алгоритм случайного леса, использующий регрессионные деревья8 в качестве строительных блоков. Для этого весь размер выборки данных случайным образом разделялся на обучающую часть (48 наблюдений) и тестовую часть (29 наблюдений). Тестовая часть выборки использовалась для определения качества предсказаний путем нахождения среднего квадрата ошибки, что необходимо для тестирования степени важности переменных. Для построения каждого узла регрессионного дерева использовалось пять предикторов. Число создаваемых деревьев равно 500. Количество повторений алгоритма при разных обучающихся выборках равнялось 100, и результаты усреднялись.

Показатель важности IncMSE основан на среднем снижении точности предсказаний (на основании суммы квадратов остатков) на оставшихся данных при исключении соответствующей переменной из числа исследуемых предикторов. Таким образом, по данным табл. 2 можно сделать вывод, что наиболее важными для нечеткого моделирования являются пять факторов: объем промышленного производства, инвестиции в основной капитал на душу населения, численность занятых, уровень урбанизации региона и отправление грузов железнодорожным транспортом общего пользования. Самыми важными, что очевидно, являются два первых фактора. Показатель выработки электроэнергии и располагаемые доходы на душу населения – несущественные факторы, что согласуется с результатами работы [22]. Несущественным показателем оказался также ввод в действие жилых домов на 1000 человек населения.

При проектировании нечеткой системы Сугено вся выборка эмпирических данных делится на обучающую (48 наблюдений) и тестовую (29 наблюдений), как и при реализации алгоритма случайного леса. Далее происходит синтез нечетких правил из обучающей выборки посредством субтрактивной кластеризации, представляющей собой быстрый однопроходный алгоритм оценки количества кластеров и центров кластеров в наборе данных. Субтрактивная кластеризация рассматривает каждую точку данных как потенциальный центр кластера, определяя потенциал точки данных как функцию ее расстояний до всех других точек данных [23]. Точка данных имеет высокое потенциальное значение, если у нее много соседей. Самый высокий потенциал выбирается в качестве центра кластера, а затем потенциал каждой точки данных обновляется. Процесс определения новых кластеров и обновления потенциалов повторяется до тех пор, пока оставшийся потенциал всех точек данных не упадет ниже некоторой доли потенциала первого центра кластера. После получения всех центров кластеров в результате субтрактивной кластеризации центры кластеров оптимизируются с помощью нечетких средств. При реализации этой кластеризации необходимо задать радиусы кластеров из диапазона [0, 1], определяющие, на каком максимальном расстоянии могут находиться его элементы. Для проектирования нечеткой системы Сугено с тремя нечеткими правилами выбран размер кластера, равный 0,7. Пример результата субтрактивной кластеризации для зависимости электропотребления от отправления грузов железнодорожным транспортом на обучающей выборке данных приведен на рис. 1.

 

Источник: расчеты автора.

Рис. 1. Результат субтрактивной кластеризации для зависимости электропотребления от отправления грузов железнодорожным транспортом на обучающей выборке данных

Fig. 1. Subtractive clustering for the dependence of power consumption from the rail transported goods on the training data set

 

Результатом субтрактивной кластеризации является синтез трех нечетких правил из обучающей выборки. Следующим этапом выступает генерирование нечеткой системы типа Сугено (FIS), которая рассматривается как исходная нечеткая система для ANFIS-обучения. Нечеткие правила экстрагируются этой системой следующим образом: сначала определяются посылки нечетких правил, а затем вычисляются заключения правил. Таким образом, генерируется система нечеткого вывода с тремя правилами, которые покрывают всю предметную область. Настраиваемыми параметрами полученной системы, как отмечалось, являются коэффициенты в заключениях правил нечеткой базы знаний и параметры функций принадлежности термов входных переменных. Количество этих параметров равно 46, то есть меньше количества наблюдений в обучающей выборке (равном 48), что является необходимым условием. Для обучающей выборки находится выходное значение, которое сравнивается со значением электропотребления на этой выборке. Среднеквадратичная ошибка (RMSE) при этом сравнении равна 0,1999.

Далее аналогично находится выходное значение нечеткой системы FIS на тестовой выборке, которое также сравнивается со значением промышленного электропотребления на этой выборке. Среднеквадратичная ошибка при этом сравнении равна 1,079. Как видно, RMSE на тестовой выборке намного выше аналогичной ошибки на обучающей выборке. На рис. 2 представлено сравнение выходных данных нечеткой системы и электропотребления (исходные данные) на тестовой выборке. Отметим, что все описанные ошибки и сравнения приведены для системы нечеткого вывода без обучения.

 

Источник: расчеты автора.

Примечание: на оси абсцисс показаны индексы каждого региона РФ.

Рис. 2. Сравнение выходных данных нечеткой системы и электропотребления (исходные данные) на тестовой выборке

Fig. 2. Comparison of fuzzy system output data and power consumption (initial data) on the test sample: the abscissa shows the indices of each region in the Russian Federation

 

Чтобы улучшить производительность нечеткой системы FIS, следует оптимизировать систему с помощью алгоритма ANFIS. Для настройки параметров нечеткой системы используется гибридное обучение, заключающееся в том, что при каждой итерации параметры функций принадлежности и полиномы Сугено настраиваются в два этапа. На первом этапе происходит настройка коэффициентов полиномов первого порядка Сугено по методу наименьших квадратов (МНК). На втором этапе остаточная невязка передается с выхода сети на входы, то есть реализуется метод обратного распространения ошибки.

Сначала используется относительно короткий период обучения (20 итераций) без применения данных проверки, а затем полученная модель FIS с обучением проверяется на основе данных тестовой выборки. Постепенно увеличивая количество итераций, можно добиться минимального расхождения между выходным значением обученной нечеткой системы FIS на тестовой выборке и значением промышленного электропотребления на ней же.

Сравнение выходного значения нечеткой системы FIS после обучения и настройки параметров на тестовой выборке со значением промышленного электропотребления на этой выборке приводит к среднеквадратичной ошибке, равной 0,491. Количество итераций обучения при этом равно 40. Как видно, полученная RMSE после обучения уменьшилась по сравнению с аналогичной ошибкой без обучения. Результаты приведены на рис. 3.

 

Источник: расчеты автора.

Примечания: 1) на оси абсцисс показаны индексы каждого региона РФ; 2) количество итераций обучения равно 40.

Рис. 3. Сравнение выходных данных нечеткой системы FIS без и после обучения c помощью алгоритма ANFIS и электропотребления (исходные данные) на тестовой выборке

Fig. 3. Comparison of the output data of the fuzzy FIS system without and after training using the ANFIS algorithm and power consumption (initial data) on the test sample: 1) the abscissa axis shows the indices of each region in the Russian Federation; 2) the number of training iterations is 40

 

Интересно сравнить результаты нечеткой идентификации разработанной системы нейро-нечеткого вывода с результатами множественной регрессии и с результатами применения метода случайного леса, использующего регрессионные деревья решений для предсказательных моделей к исследуемым данным.

На рис. 4 показана диаграмма соответствия электропотребления на тестовой выборке и предсказанных значений рассматриваемой модели при применении метода случайного леса к исследуемым данным. На диаграмме показан разброс предсказанных значений от прямой линии, соответствующей их полному совпадению с фактическими значениями электропотребления. При построении случайного леса использовались три предиктора при разбиении обучающих данных для построения деревьев и 50 регрессионных деревьев. Алгоритм выбора обучающей и тестовой выборок был тот же самый, что и при нечетком моделировании. Среднеквадратичная ошибка на тестовой выборке составила 0,689, что выше аналогичного значения ошибки при нечеткой идентификации. Численное значение ошибки практически не изменялось при увеличении и снижении числа деревьев и при изменении числа предикторов при разбиении обучающих данных.

 

Источник: расчеты автора.

Рис. 4. Диаграмма соответствия электропотребления на тестовой выборке (elektr_test) и предсказаний исследуемой модели (yhat_rf) при применении метода случайного леса

Fig. 4. Correspondence diagram of power consumption on the test sample (elektr_test) and prediction of the model under study (yhat_rf) when applying the random forest method: see explanation in the text

 

Для сравнения результатов нечеткого моделирования с результатами множественной регрессии следует найти ошибку прогноза регрессии на тестовой выборке. Модель множественной регрессии записывается в виде

y=b0+b1x1+b2x2+b3x3+b4x4+b5x5,

где переменная y – промышленное электропотребление, x1, x2, x3, x4, x5 – соответственно объем промышленного производства, инвестиции в основной капитал на душу населения, численность занятых, уровень урбанизации и отправка грузов железнодорожным транспортом.

Разделение исходных данных на обучающую и тестовую выборки производилось аналогично сравнительному анализу, осуществленному ранее. Вектор параметров модели регрессии определялся на обучающей выборке. В результате идентификации полученная модель имеет вид

y=0,234+0,987x1+0,891x2++ 0,678x3+0,489x4+0,245x5.

Среднеквадратичная ошибка на тестовой выборке составляет 1,245, то есть является выше аналогичного значения RMSE для идентификации методами нечеткой логики и случайного леса. Конечно, мы осознаем, что значение ошибки для множественной регрессии не совсем корректное, так как исходная модель регрессии должна содержать слагаемые, отражающие пространственную автокорреляцию, как показано в работе [22]. Тем не менее это не умаляет преимущества метода нечеткой логики для идентификации экономических моделей в условиях неопределенности.

Как отмечалось, разработанная нечеткая система (система нечеткого логического вывода) может использоваться для исследования влияния изменения любого входного фактора или комбинации таких факторов на изменение промышленного электропотребления, то есть для сценарного прогнозирования различных ситуаций. Хотя нашей задачей не являлось проведение подобных прогнозов, следует отметить их возможности. С помощью нечеткой системы можно выяснить, насколько изменится промышленное электропотребление при размещении производственных мощностей в определенных регионах, или проанализировать целесообразность такого размещения, связанного с наличием трудовых ресурсов. Можно также исследовать изменение промышленного электропотребления при изменении численности занятых, связанной с оттоком трудовых ресурсов, и т. д.

В качестве примера рассмотрим, насколько процентов изменится электропотребление регионов, обслуживаемых ОЭС Востока, при изменении объема промышленного производства в них на один процент. Территория обслуживания ОЭС Востока включает в себя девять регионов: Республику Саха (Якутия), Камчатский, Приморский и Хабаровский края, Амурскую, Магаданскую и Сахалинскую области, Еврейскую автономную область и Чукотский автономный округ. Эти регионы обладают значительным потенциалом роста потребления электроэнергии, что связано с разработкой здесь месторождений цветных металлов, нефти и газа.

При изменении объема промышленного производства в этих девяти регионах на 1 % (в основном за счет добывающей и в меньшей степени обрабатывающей промышленности) выходное значение промышленного электропотребления в нечеткой системе после обучения всей выборки изменится на 3,3 %. При одновременном увеличении инвестиций в рассматриваемые регионы рост электропотребления может быть более значительным. В качестве справки отметим, что, по данным портала «ИнфоТЭК»10, Министерство энергетики России прогнозирует среднегодовой темп роста электропотребления в ОЭС Востока 5,20 %. Поскольку все регионы проиндексированы, можно прогнозировать изменение выходного значения промышленного электропотребления при количественном изменении любого из предикторов не только в целом по стране, но и в каждом отдельном регионе.

Заключение

В данной статье с помощью метода нечеткого моделирования исследована зависимость промышленного электропотребления от различных социально-экономических факторов. Использование нечеткой логики особенно хорошо подходит для моделирования плохо определенных систем, в которых существует значительная неопределенность относительно природы и диапазона ключевых входных переменных и основных взаимосвязей между ними. Такой системой является экономика современной России в период наложенных на нее санкций со стороны недружественных государств. С некоторой долей условности метод нечеткой логики для моделирования взаимосвязей между переменными можно считать одним из методов непараметрической оценки регрессионных уравнений.

Результаты нечеткого моделирования сравнивались с результатами, полученными при моделировании анализируемой зависимости с помощью множественной регрессии, и с результатами, полученными при применении метода случайного леса, использующего регрессионные деревья решений к исследуемым данным. Показано, что моделирование исследуемой зависимости посредством нечеткой модели в условиях неопределенности является более адекватным по сравнению с ее моделированием с помощью регрессионных методов (включая метод случайного леса). Тем самым подтверждена рабочая гипотеза статьи о преимуществе нечеткого моделирования перед другими методами, в том числе эконометрическими, в условиях неопределенности.

Разработанная нечеткая система (система нечеткого логического вывода) может использоваться для исследования влияния изменения любого входного фактора или комбинации факторов на изменение промышленного электропотребления. С помощью нечеткой системы можно выяснить, насколько изменится промышленное электропотребление при размещении производственных мощностей в определенных регионах, или проанализировать целесообразность такого размещения, связанного с наличием трудовых ресурсов. Можно также исследовать изменение промышленного электропотребления при изменении численности занятых, связанной с оттоком трудовых ресурсов и т. д.

 

1 Если отвлечься от факта, что мы оперируем не стохастическими, а нечеткими переменными.

2 Термом называется любой элемент терм – множества, то есть множества всех возможных значений лингвистической переменной – переменной, значениями которой могут являться слова или их сочетания.

3 Именно этот случай, как будет показано ниже, реализуется в данном исследовании, так как размер выборки определяется количеством регионов России.

4 Бутстреп заключается в многократном извлечении выборок из одного обучающегося набора данных.

5 Более подробно о модели и выборе факторов см. в статье [22].

6 Ковалев А. Санкции и российская электроэнергетика // ИнфоТЭК. 19.09.2022. URL: https://itek.ru/analytics/sankcii-i-rossijskaya-elektroenergetika/ (дата обращения: 21.02.2022).

7 Показатель отправки грузов железнодорожным транспортом общего пользования также не публикуется с первого квартала 2023 г.

8 Вычисления по алгоритму случайного леса проводились в пакете R.

9 Кроме абсолютных среднеквадратичных ошибок (RMSE) для обучающей и тестовой выборок для системы нечеткого вывода без обучения, проводился расчет относительной средней квадратичной процентной ошибки (RMSPE). Соотношение между абсолютными и относительными ошибками при этом практически не изменялось. Поскольку основной метрикой в использовании нечеткой логики является расчет RMSE, в дальнейшем будем следовать этой логике.

10 Минэнерго ждет ежегодного роста потребления энергии в России на 2% // ИнфоТЭК. 06.12.2023. URL: https://itek.ru/news/minenergo-zhdet-ezhegodnogo-rosta-potrebleniya-energii-v-rossii-na-2/ (дата обращения: 16.02.2024).

×

About the authors

Leonid A. Serkov

Institute of Economics of RAS Ural Branch

Author for correspondence.
Email: serkov.la@uiec.ru
ResearcherId: AAE-7031-2021

PhD in Physics and Mathematics, Associate Professor, Senior Researcher at the Center for Development and Location of Productive Forces

Russian Federation, 91, Pervomaiskaya st., Yekaterinburg, 620049

References

  1. Zhaoying O. Construction and Application of Economic Management Fuzzy Decision Model Based on Fuzzy Relevance Method. Journal of Mathematics, 2022, vol. 2022, Article ID 9878815, 11 p. doi: 10.1155/2022/9878815
  2. Jang J.-S. R. ANFIS: adaptive-network-based fuzzy inference system. IEEE Transactions on Systems, Man and Cybernetics, 1993, vol. 23, iss. 3, pp. 665–685. doi: 10.1109/21.256541
  3. Abraham A. Adaptation of fuzzy inference system using neural learning. Nedjah N., Macedo Mourelle L. (eds) Fuzzy Systems Engineering. Studies in Fuzziness and Soft Computing, 2005, vol. 181, Berlin, Springer, 2005, pp. 53–83. doi: 10.1007/11339366_3
  4. Giles D. E. A. Output convergence and international trade: Time-series and fuzzy clustering evidence for New Zealand and her trading partners, 1950 – 1992. Journal of International Trade and Economic Development, 2005, vol. 14, iss. 1, pp. 93–114. doi: 10.1080/0963819042000333261
  5. Lebedeva М. Fuzzy logic in economics – the formation of a new direction. Idei i idealy = Ideas and Ideals, 2019, vol. 11, no. 1-1, pp. 197–212. (In Russ.). doi: 10.17212/2075-0862-2019-11.1.1-197-212. EDN ZCWNFJ
  6. Giles D. E. A., Draeseke R. Econometric modeling based on pattern recognition via the fuzzy C-means clustering algorithm. Working Paper EWP0101. Department of Economics, University of Victoria. 2001. 50 p. Available at: https://www.uvic.ca/socialsciences/economics/_assets/docs/econometrics/ewp0101.pdf (access date 20.01.2023).
  7. Takagi T., Sugeno M. Fuzzy identification of systems and its applications to modeling and control. IEEE Transactions on Systems, Man, and Cybernetics, 1985, vol. SMC-15, no. 1, pp. 116–132. doi: 10.1109/TSMC.1985.6313399
  8. Xiao Y., Liu J. J., Hu Y., Wang Y., Lai K. K., Wang S. A neuro-fuzzy combination model based on singular spectrum analysis for air transport demand forecasting. Journal of Air Transport Management, 2014, vol. 39, pp. 1–11. doi: 10.1016/j.jairtraman.2014.03.004
  9. Kumar S., Singh R., Manish K., Ashish K. Fuzzy logic based model to calculate the economic level of any country. International Journal of Basic Sciences and Applied Computing (IJBSAC), 2016, vol. 1, iss. 12, pp. 6–12. Available at: https://www.ijbsac.org/wp-content/uploads/papers/v1i12/L00570311216.pdf (access date 20.01.2023).
  10. Petrov M. B., Serkov L. A., Kozhov K. B. Assessment of energy supply to the Yamal peninsula based on fuzzy multicriteria analysis. Ekonomika regiona = Economy of Regions, 2022, vol. 18, no. 4, pp. 1209–1222. (In Russ.). doi: 10.17059/ekon.reg.2022-4-17. EDN BAVQIV
  11. Shipley M., Johnson M., Pointer L., Yankov N. A fuzzy attractiveness of market entry (FAME) model for market selection decisions. Journal of the Operational Research Society, 2013, vol. 64, iss. 4, pp. 597–610. doi: 10.1057/jors.2012.59
  12. Neocleous C. K., Schizas C. N., Papaioannou M. C. Fuzzy cognitive maps in estimating the repercussions of oil/gas exploration on politico-economic issues in Cyprus. 2011 IEEE International Conference on Fuzzy Systems (FUZZ-IEEE 2011). Taipei, Taiwan, 2011, pp. 1119–1126. doi: 10.1109/FUZZY.2011.6007655
  13. Cummins J. D., Derring R. A. Fuzzy trends in property-liability insurance claim costs. The Journal of Risk and Insurance, 1993, vol. 60, no. 3, pp. 429–465. doi: 10.2307/253037
  14. Tselykh A. N., Tselykh L. A., Prichina O. S. Metody nechetkoi logiki v upravlenii proizvodstvennymi protsessami. Izvestiya YuFU. Tekhnicheskie nauki = Izvestiya SFedU. Engineering Sciences, 2014, no. 1 (150), pp. 111–119. (In Russ.). EDN RTZMYH
  15. Alaqeel T., Suryanarayanan S. A fuzzy analytic hierarchy process algorithm to prioritize smart grid technologies for the Saudi electricity infrastructure. Sustainable Energy, Grids and Networks, 2018, vol. 13, pp. 122–133. doi: 10.1016/j.segan.2017.12.010
  16. Mahjouri M., Ishak M., Torabian A., Manaf L., Halimoon N., Ghoddusi J. Optimal selection of iron and steel wastewater treatment technology using integrated multi-criteria decision-making techniques and fuzzy logic. Process Safety and Environmental Protection, 2017. Vol. 107. P. 54–68. doi: 10.1016/j.psep.2017.01.016
  17. Zimmer K., Fröhling M., Breun P., Schultmann F. Assessing social risks of global supply chains: A quantitative analytical approach and its application to supplier selection in the German automotive industry. Journal of Cleaner Production, 2017, vol. 149, pp. 96–109. doi: 10.1016/j.jclepro.2017.02.041
  18. Bellman R., Zade L. Prinyatie reshenii v rasplyvchatykh usloviyakh. Voprosy analiza i protsedury prinyatiya reshenii = Issues of Analysis and Decision Making Process, Moscow, 1976, pp. 172–215. (In Russ.).
  19. Leonenkov A. Nechetkoe modelirovanie v srede Matlab i fuzzyTECH. St Petersburg, 2005. 719 p. (In Russ.).
  20. Breiman L. Random forest. Machine Learning, 2001, vol. 45, pp. 5–32. doi: 10.1023/A:1010933404324
  21. Svetnik V., Liaw A., Tong C., Culberson J. C., Sheridan R. P., Feuston B. P. Random forest: A classification and regression tool for compound classification and QSAR modeling. Journal of Chemical Information and Computer Sciences, 2003, vol. 43, iss. 6, pp. 1947–1958. doi: 10.1021/ci034160g
  22. Petrov M. B., Serkov L. A., Kozhov K. B. Analysis of the spatial features of regional power consumption in the Russian Federation. Applied Econometrics, 2021, no. 1 (61), pp. 5–27. (In Russ.). doi: 10.22394/1993-7601-2021-61-5-27. EDN PGLLIM
  23. Chiu S. Fuzzy model identification based on cluster estimation. Journal of Intelligent and Fuzzy Systems, 1994, vol. 2, iss. 3, pp. 267–278. doi: 10.3233/IFS-1994-2306

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Fig. 1. Subtractive clustering for the dependence of power consumption from the rail transported goods on the training data set

Download (116KB)
3. Fig. 2. Comparison of fuzzy system output data and power consumption (initial data) on the test sample: the abscissa shows the indices of each region in the Russian Federation

Download (112KB)
4. Fig. 3. Comparison of the output data of the fuzzy FIS system without and after training using the ANFIS algorithm and power consumption (initial data) on the test sample: 1) the abscissa axis shows the indices of each region in the Russian Federation; 2) the number of training iterations is 40

Download (125KB)
5. Fig. 4. Correspondence diagram of power consumption on the test sample (elektr_test) and prediction of the model under study (yhat_rf) when applying the random forest method: see explanation in the text

Download (90KB)

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».