Прогнозирование банковских продаж на примере ПАО «Сбербанк»

Обложка

Цитировать

Полный текст

Аннотация

Введение. В исследовании подчеркивается актуальность задачи моделирования и прогнозирования банковских продаж на примере ПАО «Сбербанк» в контексте эффективного управления бизнесом. Прогнозирование объемов продаж является важным инструментом, позволяющим предсказать спрос на продукты и услуги, определить оптимальные стратегии и тактики для достижения целей компании. Уникальность исследования состоит в использовании методов искусственного интеллекта в области маркетинга. Результаты применения методов прогнозирования на проприетарной выборке данных о ежедневных продажах ПАО «Сбербанк» обладают элементами новизны, что придает значимость разработке оптимальных стратегий и тактик для успешного управления бизнесом. Основная гипотеза исследования заключается в проверке прогностических способностей методов машинного обучения в сравнении с классическими эконометрическими подходами при моделировании объемов продажах ПАО «Сбербанк». Цель. Разработка моделей прогнозирования продаж универсальных продуктов и их инструментальная реализация для блока «Сеть продаж» ПАО «Сбербанк». Материалы и методы. В работе использованы методы системного анализа, статистические и экономико-математические методы анализа данных и их обработки. На собранных и предварительно обработанных данных о продажах условных продуктов ПАО «Сбербанк», отражающих динамику банковских продаж, проведены вычислительные эксперименты для построения ряда моделей прогнозирования и обоснован выбор наилучшей модели из числа построенных. Результаты. Модели на основе методов случайного леса (Random Forest) и градиентного бустинга (XGBRegressor) позволили получить прогнозы, точность которых существенно выше точности прогнозов ARIMA-модели и линейной регрессии на обучающей и тестовой выборках. Выводы. Результаты проведенной работы позволяют утверждать, что методы машинного обучения в настоящий момент являются перспективными для решения задач прогнозирования банковских продаж и могут выступать предметом дальнейших исследований в данной области. Внедрение методов машинного обучения в банковскую практику способно значительно улучшить эффективность существующего управления продажами и рисками.

Полный текст

АНАЛИЗ БАНКОВСКИХ ПРОДАЖ

В современной рыночной экономике объем продаж является ключевым показателем эффективности деятельности в сфере материального производства и услуг. Вопросы организации продаж банковских продуктов становятся все более актуальными в связи с повышением требований клиентов к качеству обслуживания и усилением конкуренции. Продажи являются своеобразным индикатором эффективности всей деятельности банка [1–3].

Система продаж банковских продуктов не может существовать независимо от других структурных элементов банка, являясь частью его организационно-экономического механизма. Для оценки ее эффективности можно использовать несколько ключевых показателей [4; 5]:

– объем продаж – отражает количество и стоимость реализованных банковских продуктов за определенный период;

– конверсия – показывает процент успешных продаж от общего числа контактов с потенциальными клиентами;

– средний чек – позволяет определить среднюю стоимость продукта;

– коэффициент удержания клиентов;

– уровень удовлетворенности клиентов.

Для оценки эффективности системы продаж банковских продуктов также можно использовать различные методы анализа данных, такие как ABC-анализ, SWOT-анализ, анализ KPI и др. [6; 7].

Перечисленные показатели помогают оценить финансовую производительность и успешность компании, выявить ее прибыльность, эффективность и устойчивость к окружающей бизнес-среде.

Предлагаем обратить внимание на один из ключевых показателей – объем продаж, который играет важную роль в оценке финансовой эффективности и успеха предприятия [4]. В ПАО «Сбербанк» данный показатель является основным в блоке «Сеть продаж» и измеряется в условных продуктах (далее – УП) или суммарных условных продуктах (далее – СУП). Каждый продукт, такой как кредит, депозит, кредитная карта, имеет уникальный вес в рамках УП. При этом вес УП может варьироваться в зависимости от конкретного продукта, подразделения и отдела. Это означает, что банк контролирует продажу определенных продуктов, увеличивая или уменьшая их вес в составе УП в соответствии с долгосрочными целями и стратегией. Такой подход помогает оптимизировать стратегии продаж и достигать наилучших результатов. Отметим, что в ходе исследования нами также рассмотрены понятие и сущность процесса продаж и система продаж банковских продуктов.

МЕТОДЫ ПРОГНОЗИРОВАНИЯ ПРОДАЖ

Прогнозирование продаж является важным инструментом для банковского сектора, позволяющим оптимизировать стратегию продаж, управлять запасами и планировать бюджет. Методы прогнозирования продаж можно разделить на субъективные, статистические и методы машинного обучения (рис. 1) [8; 9]. Каждая из этих групп имеет свои преимущества и недостатки, и нашей целью является поиск оптимальной модели прогнозирования продаж для ПАО «Сбербанк».

 

Рис. 1. Классификация методов прогнозирования

Fig. 1. Classification of forecasting methods

Источник: составлено авторами.

 

ПРЕДВАРИТЕЛЬНЫЙ АНАЛИЗ ДАННЫХ

Исследование предполагает прогнозирование объемов продаж ПАО «Сбербанк», данные о продажах предоставлены банком: они измеряются в СУП и охватывают период с 01.01.2020 по 07.04.2024, показанный в недельных временных интервалах в разрезе территориальных банков. Для исследования выбран язык Python – инструмент для анализа и прогнозирования временных рядов, использующий обширные библиотеки, такие как Pandas, NumPy, SciPy, XGBoost, statsmodels и scikit-learn. Библиотеки XGBoost и scikit-learn предоставляют реализации алгоритмов градиентного бустинга (XGBoost) и случайного леса (Random Forest), позволяя исследователям эффективно строить модели и делать прогнозы на основе временных данных. Эти инструменты обеспечивают высокую скорость обучения, хорошую обобщающую способность и возможность настройки гиперпараметров для достижения оптимальных результатов в анализе временных рядов.

Для первичного анализа рассмотрим агрегированное значение продаж ПАО «Сбербанк» по стране в целом. Наблюдается явная сезонность, выраженные праздничные дни, в то время как определенного тренда не просматривается. Данные представлены на рис. 2.

 

Рис. 2. Продажи ПАО «Сбербанк» за 2020–2024 гг.

Fig. 2. Sberbank’s sales, 2020–2024

Источник: составлено авторами.

 

Перед нами стоит задача краткосрочного дневного прогноза, поэтому рассмотрим данные за последние шесть месяцев – с 11.10.2023 до 07.04.2024 (рис. 3). Наблюдается еженедельная сезонность, а также низкие объемы продаж во время новогодних праздников. Отметим, что с начала нового года произошло изменение методологии и пересчет СУП банка.

 

Рис. 3. Продажи ПАО «Сбербанк» в период 11.10.2023–07.04.2024

Fig. 3. Sberbank’s sales from 11.10.2023 to 07.04.2024

Источник: составлено авторами.

 

Проведенный на следующем шаге исследования анализ пропущенных данных позволил установить, что пропуски в них отсутствуют.

Далее нами оценены данные на выбросы (рис. 4), которых также не обнаружено.

 

Рис. 4. «Ящик с усами» продаж ПАО «Сбербанк»

Fig. 4. Sberbank’s sales boxplot

Источник: составлено авторами.

 

Произведем анализ описательных статистик на основе данных за предшествующие полгода относительно объемов продаж в ПАО «Сбербанк». В результате анализа установлено, что средний объем продаж составляет 72 701,56 СУП, а диапазон значений колеблется в интервале между 0,28 и 154 918,66 СУП. Результаты представлены в табл. 1.

 

Табл. 1. Описательные статистики продаж

Table 1. Descriptive statistics of sales

Показатель

Значение

Среднее значение

72 701,5613

Стандартное отклонение

43 080,2920

Минимальное значение

0,2800

Максимальное значение

154 918,6600

Мода

91 757,4750

Квантиль уровня 25%

35 380,1850

Квантиль уровня 75%

105 835,0050

Источник: составлено авторами.

 

Проанализируем также распределение данных с помощью гистограммы для более глубокого понимания их структуры и выявления возможных закономерностей или аномалий (рис. 5).

 

Рис. 5. Гистограмма продаж ПАО «Сбербанк»

Fig. 5. Sberbank’s sales histogram

Источник: составлено авторами.

 

Анализ гистограммы на рис. 5 показывает, что данные не имеют нормального распределения.

Таким образом, в качестве зависимой (экзогенной) переменной нами выбраны продажи, а в качестве независимых (эндогенных) – данные, описывающие текущий день (табл. 2).

 

Табл. 2. Обозначение показателей

Table 2. Description of indicators

Показатель

Тип показателя

Ед. изм.

Обозначение

Продажи ПАО «Сбербанк»

Количественный

СУП

Y

День недели

Качественный

1–7

Х1

День месяца

Качественный

1–31

Х2

Праздничные дни

Качественный

0 / 1

Х3

Источник: составлено авторами.

 

ЭКОНОМЕТРИЧЕСКИЕ МЕТОДЫ ПРОГНОЗИРОВАНИЯ ВРЕМЕННЫХ РЯДОВ

Линейная регрессия – это статистический метод, который используется для определения связи между зависимой переменной (прогнозируемой) и одной или несколькими независимыми переменными. Иными словами, суть данного метода заключается в стремлении найти линейную зависимость между зависимой переменной и одной или несколькими независимыми переменными [10].

Уравнение в общем виде выглядит как

Yt=β0+β1X1t+ β2X2t+ +βpXpt+ εt, (1)

где Yt – значение временного ряда в момент времени t; X1t, X2t, … , Xpt – независимые переменные в моменты времени t; β0, β1, β2, …, βp – коэффициенты регрессии; εt – случайная ошибка в момент времени t.

Цель линейной регрессии для временных рядов состоит в оценке коэффициентов β0, β1, β2, …, βp таким образом, чтобы минимизировать сумму квадратов ошибок εt.

Уравнение модели (2) показывает, как зависимая переменная Yt связана с независимыми переменными X1t, X2t и X3t с определенными коэффициентами:

Yt=122 170,4751 109,37X1t14 388,03X2t+253,45X3t (2)

Результаты построения модели отражены на рис. 6.

 

Рис. 6. Модель линейной регрессии

Fig. 6. A linear regression model

Источник: составлено авторами.

 

После построения модели проведена работа по оценке качества, результаты которой представлены в табл. 3.

 

Табл. 3. Оценки качества линейной регрессии

Table 3. Accuracy of linear regression

Название

Обозначение

Формула

Значение

Коэффициент детерминации

R2

1i=1naxi yi2i=1nyi y¯2

0,59

Средняя квадратичная ошибка

MSE

1Ni=1naxi yi2

432 423 051,80

Средняя абсолютная ошибка

MAE

1Ni=1naxi yi

17 290,81

Корень из средней квадратичной ошибки

RMSE

1Ni=1naxi yi2

20 794,78

Средняя абсолютная процентная ошибка

MAPE

1Ni=1naxi yiyi×100%

156,25

Взвешенная абсолютная процентная ошибка

WAPE

i=1nYiei i=1nYi×100%

26,76

Источник: составлено авторами.

 

Полученные данные свидетельствуют о том, что модель линейной регрессии демонстрирует удовлетворительные результаты при прогнозировании зависимой переменной.

Далее перейдем к рассмотрению авторегрессионной модели интегрированного скользящего среднего. Рассмотрим три компонента, которые интегрирует в себе ARIMA-модель (Autoregressive Integrated Moving Average)1.

  1. AR (авторегрессионный термин) – относится к использованию прошлых значений временного ряда для прогнозирования будущих значений. Параметр p в модели авторегрессии определяет количество прошлых значений, используемых для прогнозирования:

Yt=β0+β1Yt1+β2Yt2++βpYtp+εt. (3)

Параметр можно определить по PACF (Partial Auto-Correlation Function) – «частной корреляционной функции» между Yt и Yt k при исключении влияния Yt – 1, … , Yt k + 1.

  1. MA (скользящее среднее) – используется для учета прошлых ошибок прогнозов и их влияния на будущие значения. Параметр q определяется по автокорреляционной функции (ACF, Auto-Correlation Function):

ρk=covYt,YtktvarYtt, (4)

Yt=εt+α1εt1+α2εt2++αqεtq, (5)

где εt – белый шум, всегда являющийся стационарным процессом.

Скользящее среднее показывает наличие колебаний в ряду. Чем выше значение скользящего среднего, тем выше вероятность колебаний.

  1. I (интегрирующий член) – используется для работы с нестационарными данными. Если временной ряд не является стационарным, применяется операция разности порядка d для его преобразования в стационарный ряд. Параметр d определяется с помощью тестов, таких как ADF и KPSS, которые позволяют определить степень дифференцирования, необходимую для стационарности.

Будем следовать методологии Бокса–Дженкинса для подбора оптимальной ARIMA-модели [11; 12]. Начнем с построения ACF и PACF (рис. 7–8 соответственно).

 

Рис. 7. Автокорреляционная функция временного ряда

Fig. 7. Autocorrelation function of time series

Источник: составлено авторами.

 

Рис. 8. Частная автокорреляционная функция временного ряда

Fig. 8. Partial autocorrelation function of time series

Источник: составлено авторами.

 

По автокорреляционной функции на рис. 7 и 8 видно, что присутствует сезонность.

Предположим, что коэффициенты p и q для модели будут равны 7 и 7. Затем проведем анализ временного ряда путем его декомпозиции на тренд, сезонную составляющую и остатки. Для этого используем аддитивную и мультипликативную модели, а также LOESS-модель с целью декомпозиции. После оценки остатков выявлено, что наилучшим вариантом является мультипликативная модель. Результаты декомпозиции представлены на рис. 9, где четко прослеживаются сезонность и тренд, связанный с праздничными днями.

 

 

Рис. 9. Декомпозиция временного ряда

Fig. 9. Time series decomposition

Источник: составлено авторами.

 

Далее изучим тренд, построив линейную, квадратичную, кубическую и экспоненциальную модели. Результаты анализа представлены на рис. 10.

 

Рис. 10. Тренд временного ряда

Fig. 10. Time series trend

Источник: составлено авторами.

 

Можно отметить, что модели на рис. 10 показывают отсутствие ярко выраженного тренда, поскольку в данных не прослеживается четкое направление роста (спада) во времени.

Далее проверим ряд на стационарность: сезонность ряда видна визуально, ряд нестационарен. В связи с этим принимаем решение использовать SARIMA-модель вместо ARIMA из-за наличия сезонности. После тщательного подбора параметров и тестирования различных моделей определяем, что оптимальной является модель SARIMAX (7, 1, 7), уравнение которой выглядит следующим образом:

Δt=3,93×1080,87Δt1 0,86Δt20,88Δt30,86Δt40,88Δt50,86Δt6+0,12Δt7+εt0,07εt10,03εt2+0,07εt30,08εt4++0,07εt50,03εt60,93εt7, (6)

где Δt – разность между значениями временного ряда на момент времени t и t – 1.

В модели присутствует 7 лагов, что соответствует недельной сезонности. Это означает, что мы учитываем информацию о данных за предыдущие 7 дней при прогнозировании текущего значения. Использование такой сезонной составляющей может быть полезно для улавливания цикличности или паттернов, которые повторяются каждую неделю во временном ряду. Результаты модели (6) представлены на рис. 11.

 

Рис. 11. Модель SARIMAX (7, 1, 7)

Fig. 11. SARIMAX Model (7, 1, 7)

Источник: составлено авторами.

 

Модель была оценена, результаты анализа представлены в табл. 4.

 

Табл. 4. Оценки качества SARIMAX (7, 1, 7)

Table 4. SARIMAX scores (7, 1, 7)

Название

Обозначение

Формула

Значение

Средняя квадратичная ошибка

MSE

1Ni=1naxi yi2

161 752 430,30

Средняя абсолютная ошибка

MAE

1Ni=1naxi yi

10 041,65

Корень из средней квадратичной ошибки

RMSE

1Ni=1naxi yi2

12 718,19

Средняя абсолютная процентная ошибка

MAPE

1Ni=1naxi yiyi×100%

17,74

Взвешенная абсолютная процентная ошибка

WAPE

i=1nYiei i=1nYi×100%

14,93

 

Результаты анализа, отраженные в табл. 4, позволяют сделать вывод, что рассматриваемая модель в целом адекватно описывает данные, хотя и наблюдается некоторое расхождение между прогнозами и фактическими значениями. Такой вывод основан на значении средней абсолютной ошибки (MAE), равном 10 041,65, поскольку MAE является мерой разницы между фактическими и прогнозируемыми значениями временного ряда (т. е. чем ближе этот показатель к нулю, тем лучше прогнозные качества модели).

Таким образом, нами построены две модели с использованием статистических методов прогнозирования временных рядов, обе оценены как удовлетворительные. На следующем шаге перейдем к методам машинного обучения, использование которых позволит более гибко учитывать сложные взаимосвязи данных и улучшить качество прогнозов.

МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПРОГНОЗИРОВАНИЯ ВРЕМЕННЫХ РЯДОВ

Многие методы машинного обучения применяют деревья для решения задач классификации и регрессии. Решающие деревья представляют собой структуру в виде графа, где узлы содержат признаки для разделения выборки, а листья представляют собой части выборки. Глубина дерева определяется количеством уровней иерархии в структуре [12].

«Одно дерево – это хорошо, а много – еще лучше, а когда деревьев много — это уже лес»2. Объединение множества решающих деревьев дает композицию алгоритмов, одной из разновидностей которой является случайный лес. Объединение множества слабых алгоритмов с невысокой точностью дает один сильный алгоритм с хорошей точностью.

В методе случайного леса обучают каждый алгоритм из композиции, а ответом является усредненный результат по всем алгоритмам, входящим в композицию. В случае регрессии ответ a(x) находится по формуле

ax=1Nn=1Nbnx, (7)

где bn(x) – предсказание n-го базового алгоритма на входных данных x [12].

Каждый алгоритм в композиции дает собственное предсказание, которое усредняется для получения итогового результата a(x). Обучение деревьев происходит независимо друг от друга (на разных подмножествах).

Метод Random Forest обладает рядом преимуществ, включая высокую точность предсказаний за счет использования ансамбля деревьев, устойчивость к переобучению благодаря случайному выбору признаков и данных для построения каждого дерева, способность обрабатывать большое количество признаков без необходимости предварительной обработки данных [13; 14]. Однако у данного метода существуют ограничения, такие как склонность к переобучению при использовании большого количества деревьев или наличии шумных данных, неинтерпретируемость результатов из-за большого количества деревьев и их комбинаций, а также вычислительная сложность при построении и обучении леса деревьев, особенно при работе с большими объемами данных. В целом Random Forest является мощным алгоритмом машинного обучения с высокой точностью и устойчивостью, но при его применении необходимо учитывать указанные ограничения и особенности для эффективного использования в конкретной задаче [14].

Благодаря использованию модели Random Forest Regressor нам удалось создать эффективную модель. Графически результаты модели представлены на рис. 12, а оценка ее качества – в табл. 5. Следует отметить, что средняя абсолютная ошибка уменьшилась практически вдвое – до 5 921,26 суммарных агрегированных продуктов. Этот показатель свидетельствует о том, что модель Random Forest Regressor лучше соответствует данным и способна делать более точные прогнозы по сравнению с предыдущими моделями.

 

Рис. 12. Модель Random Forest

Fig. 12. Random Forest model

Источник: составлено авторами.

 

Табл. 5. Оценки качества модели Random Forest

Table 5. Random Forest Model’s scores

Название

Обозначение

Формула

Значение

Коэффициент детерминации

R2

1i=1naxi yi2i=1nyi y¯2

0,95

Средняя квадратичная ошибка

MSE

1Ni=1naxi yi2

52 539 760,07

Средняя абсолютная ошибка

MAE

1Ni=1naxi yi

5 921,26

Корень из средней квадратичной ошибки

RMSE

1Ni=1naxi yi2

7 248,43

Средняя абсолютная процентная ошибка

MAPE

1Ni=1naxi yiyi×100%

18,28

Взвешенная абсолютная процентная ошибка

WAPE

i=1nYiei i=1nYi×100%

9,16

Источник: составлено авторами.

 

Далее рассмотрим метод бустинга. Усиление (boosting) – это метод обучения, который строит композицию из базовых алгоритмов для повышения их эффективности. В отличие от бэггинга, где модели работают независимо, в бустинге модели приспосабливаются к данным последовательно, исправляя ошибки предыдущих моделей.

Градиентный бустинг использует соответственно алгоритм градиентного спуска для добавления новых слабых алгоритмов в композицию. При этом находится оптимальный вектор сдвига, который улучшает работу предыдущих алгоритмов. Он вычисляется как антиградиент функции ошибок предыдущей композиции3. Таким образом мы определяем, какие значения должны принимать объекты обучающей выборки для минимизации отклонения ответов от истинных значений при добавлении нового алгоритма в композицию [15].

Нами была разработана модель с применением XGBRegressor, которая оказалась успешной. На рис. 13 изображен график, отражающий результаты модели, а показатели ее качества представлены в табл. 6. Следует отметить, что средняя абсолютная ошибка составила 8 059,20 суммарных агрегированных продуктов. Это указывает на то, что модель с XGBRegressor релевантна и хорошо адаптирована к данным.

 

Рис. 13. Модель на основе градиентного бустинга

Fig. 13. Model based on gradient boosting

Источник: составлено авторами.

 

Табл. 6. Оценки качества модели XGBRegressor

Table 6. XGBRegressor model’s scores

Название

Обозначение

Формула

Значение

Коэффициент детерминации

R2

1i=1naxi yi2i=1nyi y¯2

0,93

Средняя квадратичная ошибка

MSE

1Ni=1naxi yi2

36 565 554,92

Средняя абсолютная ошибка

MAE

1Ni=1naxi yi

8 059,20

Корень из средней квадратичной ошибки

RMSE

1Ni=1naxi yi2

8 813,48

Средняя абсолютная процентная ошибка

MAPE

1Ni=1naxi yiyi×100%

36,83

Взвешенная абсолютная процентная ошибка

WAPE

i=1nYiei i=1nYi×100%

12,72

Источник: составлено авторами.

 

Итак, авторами были изучены методы машинного обучения, модели на основе которых продемонстрировали более высокие показатели качества, чем при использовании статистических методов. Несмотря на полученный результат, попытаемся усовершенствовать модели для достижения еще более точных и надежных результатов.

С этой целью рассмотрим идею декомпозиции данных на основе недельной сезонности. В результате проведенного анализа мы выяснили, что в полученном временном ряду присутствует недельная цикличность, поэтому разделим данные на три категории: будние дни, суббота и воскресенье. По нашим предположениям, такой подход позволит повысить точность модели, для построения которой выберем метод случайного леса (Random Forest), поскольку он продемонстрировал лучшие результаты на данном наборе данных. Таким образом, выбранный подход позволит учесть сезонные колебания и повысить качество прогнозов.

Мы разделили имеющиеся данные на три категории и выделили для каждой из них тестовую и обучающую выборки. Графически результаты этого разделения представлены на рис. 14–16. Благодаря используемому подходу мы сможем провести эффективное обучение моделей для каждой категории данных и оценить их качество на соответствующих тестовых выборках.

 

Рис. 14. Временной ряд будних дней

Fig. 14. Time series of weekdays

Источник: составлено авторами.

 

Рис. 15. Временной ряд субботних дней

Fig. 15. Time series of Saturdays

Источник: составлено авторами.

 

Рис. 16. Временной ряд воскресных дней

Fig. 16. Time series of Sundays

Источник: составлено авторами.

 

На рис. 17 представлена комплексная визуализация трех категорий.

 

Рис. 17. Деление данных на обучающую и тестовую выборки

Fig. 17. Data grouped into training and test samples

Источник: составлено авторами.

 

Далее построим модели для каждой категории данных сначала по отдельности, затем объединим их в общую модель. Каждая из обозначенных моделей построена с использованием метода случайного леса (рис. 18). Этот подход позволил учесть особенности и сезонность в каждой категории данных, а затем объединить их для получения общего прогностического результата. Результаты оценки качества данной модели представлены в табл. 7.

 

Рис. 18. Модель на основе декомпозиции временного ряда

Fig. 18. Model based on time series decomposition

Источник: составлено авторами.

 

Табл. 7. Оценки качества модели декомпозиции

Table 7. Assessments of the decomposition model

Название

Обозначение

Формула

Значение

Коэффициент детерминации

R2

1i=1naxi yi2i=1nyi y¯2

0,95

Средняя квадратичная ошибка

MSE

1Ni=1naxi yi2

58 191 261,93

Средняя абсолютная ошибка

MAE

1Ni=1naxi yi

6 533,67

Корень из средней квадратичной ошибки

RMSE

1Ni=1naxi yi2

7 628,32

Средняя абсолютная процентная ошибка

MAPE

1Ni=1naxi yiyi×100%

10,08

Взвешенная абсолютная процентная ошибка

WAPE

i=1nYiei i=1nYi×100%

9,71

Источник: составлено авторами.

 

Таким образом, модель с декомпозицией данных продемонстрировала сопоставимое качество с моделью случайного леса. Обе модели показали высокую эффективность, но при сравнении суммы недельных прогнозов модель с декомпозицией оказалась более точной. В качестве вывода необходимо отметить, что выбор между моделями зависит от постановки конкретной задачи. Так, в случае, когда требуется короткий прогноз по дням, лучше использовать модель случайного леса, если же необходим прогноз на неделю в целом, то более предпочтительной является модель с декомпозицией данных. Иными словами, важно подходить к выбору модели, отталкиваясь от цели прогнозирования и требуемой точности прогнозов.

1 Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс: учебник. 6-е изд., перераб. и доп. М.: Дело, 2004. 576 с.

2 Лимановская О. В., Алферьева Т. И. Основы машинного обучения: учеб. пособие. Екатеринбург: Изд-во Урал. ун-та, 2020. 88 с.

3 Кугаевских А. В., Муромцев Д. И., Кирсанова О. В. Классические методы машинного обучения. СПб.: Университет ИТМО, 2022. 53 с.

×

Об авторах

Анастасия Романовна Ермакова

Пермский государственный национальный исследовательский университет

Email: ermakovanastya2015@yandex.ru
Россия, 614068, Пермь, ул. Букирева, д. 15

Галина Сергеевна Васёва

Пермский государственный национальный исследовательский университет

Автор, ответственный за переписку.
Email: vasyova@econ.psu.ru

кандидат экономических наук, доцент кафедры информационных систем и математических методов в экономике

Россия, 614068, Пермь, ул. Букирева, д. 15

Список литературы

  1. Бондарева К. И. Понятие и сущность продажи товаров в современных условиях // Экономика и социум. 2016. № 6-3 (25). С. 9–12. EDN WMTGLJ
  2. Зверев О. А. Система продаж банковских продуктов как неотъемлемый элемент рыночного механизма в банковской сфере // Финансы и кредит. 2004. № 14 (152). С. 3–9. EDN HVQOPL
  3. Чернов М. В. Понятие и сущность процесса продаж // Экономика и управление: анализ тенденций и перспектив развития. 2016. № 26. С. 76–79. EDN VWSGTD
  4. Плотникова А. В., Хашова В. В., Вишнякова А. Б. Прогнозирование как элемент принятия управленческих решений в деятельности ПАО «Сбербанк России» // Вестник молодых ученых Самарского государственного экономического университета. 2018. № 2 (38). С. 123–127. EDN VMOAHK
  5. Руденко И. В. Управление продажами: истоки, сущность, подходы // Вестник Омского университета. Серия: Экономика. 2012. № 4. С. 21–25. EDN QJCIOZ
  6. Мифодовская Ю. С. Анализ и прогнозирование продаж и закупок на основе математических моделей для торговых компаний // Инновации. Наука. Образование. 2021. № 34. С. 2710–2713. EDN EEMBSQ
  7. Хорзова Я. А. Применение различных методов прогнозирования объема продаж // Электронный научный журнал. 2016. № 4 (7). С. 596–603. doi: 10.18534/enj.2016.04.596. EDN WAQCOF
  8. Афанасьев Г. И., Афанасьев А. Г., Бурмистрова М. В., Тэт В. Я. С. Исследование методов машинного обучения для прогнозирования эффективных бизнес-решений в системах электронной коммерции // E-Scio. 2022. № 11 (74). C. 1–14. EDN KCTBIG
  9. Валиахметова Ю. И., Идрисова Э. И. Применение методов машинного обучения в области прогнозирования объема продаж с учетом динамически изменяющихся признаков // StudNet. 2020. Т. 3, № 10. С. 98. EDN GRCMQK
  10. Антонов Г. В., Иванов С. И. Линейная регрессия как один из методов статистического исследования // Известия Великолукской государственной сельскохозяйственной академии. 2021. № 2 (35). С. 64–75. EDN UNIRWN
  11. Ge H., Fang L. Prediction Model of Physical Goods Sales based on Time Series Analysis // Frontiers in Business, Economics and Management. 2022. Vol. 5, no. 2. P. 90–97.
  12. Zhang Z. Sales Prediction Based on ARIMA Time Series and Multifactorial Linear Model // Highlights in Science, Engineering and Technology. 2023. Vol. 38. P. 1–8. doi: 10.54097/hset.v38i.5680
  13. Сердинская Ю. А., Мокшин В. В. Использование методов машинного обучения для оценки прогнозирования продаж товара // Информатика: проблемы, методы, технологии (IPMT-2022): материалы XXII Междунар. науч.-практ. конф. им. Э. К. Алгазинова. Воронеж: Вэлборн, 2022. С. 1062–1068. EDN NXQUYK
  14. Pavlyshenko B. M. Machine-Learning Models for Sales Time Series Forecasting // Data. 2019. Vol. 4, no. 1. Article 15. doi: 10.3390/data4010015
  15. Zilrahmi M. A. Yu., Putra A. A., Fitri F. Comparison Fuzzy Time Series Cheng and Ruey Chyn Tsaur Model for Forecasting Sales at Empat Saudara Store // UNP Journal of Statistics and Data Science. 2023. Vol. 1, no. 3. P. 218–225. doi: 10.24036/ujsds%2Fvol1-iss3%2F56

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Классификация методов прогнозирования

Скачать (184KB)
3. Рис. 2. Продажи ПАО «Сбербанк» за 2020–2024 гг.

Скачать (145KB)
4. Рис. 3. Продажи ПАО «Сбербанк» в период 11.10.2023–07.04.2024

Скачать (210KB)
5. Рис. 4. «Ящик с усами» продаж ПАО «Сбербанк»

Скачать (95KB)
6. Рис. 5. Гистограмма продаж ПАО «Сбербанк»

Скачать (149KB)
7. Рис. 6. Модель линейной регрессии

Скачать (260KB)
8. Рис. 7. Автокорреляционная функция временного ряда

Скачать (82KB)
9. Рис. 8. Частная автокорреляционная функция временного ряда

Скачать (83KB)
10. Рис. 9. Декомпозиция временного ряда

Скачать (199KB)
11. Рис. 10. Тренд временного ряда

Скачать (266KB)
12. Рис. 11. Модель SARIMAX (7, 1, 7)

Скачать (278KB)
13. Рис. 12. Модель Random Forest

Скачать (157KB)
14. Рис. 13. Модель на основе градиентного бустинга

Скачать (171KB)
15. Рис. 14. Временной ряд будних дней

Скачать (127KB)
16. Рис. 15. Временной ряд субботних дней

Скачать (129KB)
17. Рис. 16. Временной ряд воскресных дней

Скачать (129KB)
18. Рис. 17. Деление данных на обучающую и тестовую выборки

Скачать (128KB)
19. Рис. 18. Модель на основе декомпозиции временного ряда

Скачать (165KB)

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».