Итерационное выпуклое оценивание линейных регрессионных моделей в условиях стохастической неоднородности данных

Обложка

Цитировать

Полный текст

Аннотация

Одной из ключевых проблем линейного регрессионного анализа является обеспечение робастного оценивания параметров модели в условиях стохастической неоднородности данных. В подобных случаях оценки классического метода наименьших квадратов теряют устойчивость. Данная проблема особенно актуальна при распределениях ошибок с более вытянутыми хвостами по сравнению с нормальным распределением. В качестве одного из подходов к повышению робастности регрессионных моделей рассматривается замена квадратичной функции потерь на выпукло-вогнутую, однако непосредственное применение таких функций приводит к многоэкстремальности целевой функции, что существенно усложняет решение задачи. 

Целью настоящего исследования является анализ свойств метода вариационно-взвешенных квадратических и абсолютных приближений для невыпуклых функций потерь. В работе предложен подход, основанный на замене исходной невыпуклой задачи регрессионного оценивания на итеративное применение взвешенных методов наименьших квадратов и наименьших модулей. Фактически реализуется метод вариационно-взвешенных квадратических и абсолютных приближений для невыпуклых функций потерь. На каждой итерации взвешенного метода наименьших модулей использовались алгоритмы спуска по узловым прямым. 

Исследование итерационных алгоритмов проведено методом статистических испытаний Монте–Карло для различных функций потерь. Установлено, что взвешенный метод наименьших модулей превосходит метод наименьших квадратов по быстродействию при сопоставимой точности оценивания. В условиях одновременного нарушения нескольких предпосылок регрессионного анализа для достижения приемлемой точности предпочтительным является использование либо взвешенного метода наименьших модулей, либо обобщенного метода наименьших модулей, реализованного в виде алгоритма обобщенного спуска. Получены оценки вычислительной сложности алгоритмов и времени их выполнения в зависимости от объема выборки и количества параметров регрессионной модели.

Об авторах

Олег Александрович Голованов

Институт экономики Уральского отделения РАН

Email: golovanov.oa@uiec.ru
ORCID iD: 0000-0002-9977-6954
SPIN-код: 4130-8355
Scopus Author ID: 58522704600
https://www.mathnet.ru/rus/person206252

младший научный сотрудник, центр экономической безопасности

Россия, 620014, Екатеринбург, ул. Московская, 29

Александр Николаевич Тырсин

Уральский федеральный университет; Институт экономики Уральского отделения РАН

Автор, ответственный за переписку.
Email: at2001@yandex.ru
ORCID iD: 0000-0002-2660-1221
SPIN-код: 1408-1093
Scopus Author ID: 8503427500
ResearcherId: T-5975-2017
https://www.mathnet.ru/rus/person29355

доктор технических наук, профессор; ведущий научный сотрудник; центр экономической безопасности; заведующий кафедрой; каф. прикладной математики и механики

Россия, 620002, Екатеринбург, ул. Мира, 19; 620014, Екатеринбург, ул. Московская, 29

Список литературы

  1. Hoffmann J. P. Linear Regression Models. Applications in R. New York: CRC Press, 2022. xv+420 pp. DOI: https://doi.org/10.1201/9781003162230.
  2. Орлов А. И. Многообразие моделей регрессионного анализа (обобщающая статья) // Заводская лаборатория. Диагностика материалов, 2018. Т. 84, №5. С. 63–73. EDN: XQBSKD. DOI: https://doi.org/10.26896/1028-6861-2018-84-5-63-73.312
  3. Greene W. H. Econometric Analysis. New York: Pearson, 2020. 1176 pp.
  4. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Исследование зависимостей. М.: Финансы и статистика, 1985. 488 с.
  5. Clarke B. Robustness Theory and Application. Hoboken, NJ: John Wiley & Sons, 2018. xxiii+215 pp. DOI: https://doi.org/10.1002/9781118669471.
  6. Орлов А. И. О требованиях к статистическим методам анализа данных (обобщающая статья) // Заводская лаборатория. Диагностика материалов, 2023. Т. 89, №11. С. 98–106. EDN: VEWJXD. DOI: https://doi.org/10.26896/1028-6861-2023-89-11-98-106.
  7. Salls D., Torres J. R., Varghese A. C., et al. Statistical characterization of random errors present in synchrophasor measurements / 2021 IEEE Power & Energy Society General Meeting (PESGM). Washington, DC, 2021. pp. 1–5. DOI: https://doi.org/10.1109/PESGM46819.2021.9638135.
  8. Ives A. R. Random Errors are Neither: On the Interpretation of Correlated Data // Methods in Ecology and Evolution, 2022. vol. 13, no. 10. pp. 2092–2105. DOI: https://doi.org/10.1111/2041-210X.13971.
  9. Болдин М. В., Симонова Г. И., Тюрин Ю. Н. Знаковый статистический анализ линейных моделей. М.: Наука, 1997. 288 с.
  10. Anandhi P., Prabhu S. M. The robust regression estimators: Performance & evaluation // Int. J. Stat. Appl. Math., 2023. vol. 8, no. 6. pp. 83–87. DOI: https://doi.org/10.22271/maths.2023.v8.i6a.1444.
  11. Колобов А. Б. Вибродиагностика: теория и практика. М.: Инфра-Инженерия, 2019. 252 с.
  12. Дубровская Ю. В. Анализ неоднородности экономического развития территорий в условиях цифровизации // Вестн. Омск. унив. Сер. Экономика, 2020. Т. 18, №2. С. 102–113. EDN: QWJRTP. DOI: https://doi.org/10.24147/1812-3988.2020.18(2).102-113.
  13. Bhatia S., Frangioni J. V., Hoffman R. M., et al. The challenges posed by cancer heterogeneity // Nature Biotechnology, 2012. vol. 30, no. 7. pp. 604–610. DOI: https://doi.org/10.1038/nbt.2294.
  14. Wan J.-Z., Wang C.-J., Marquet P. A. Environmental heterogeneity as a driver of terrestrial biodiversity on a global scale // Progr. Phys. Geogr., 2023. vol. 47, no. 6. pp. 912–930. DOI: https://doi.org/10.1177/03091333231189045.
  15. Atkinson A. C., Riani M., Torti F. Robust methods for heteroskedastic regression // Comput. Stat. Data Anal., 2016. vol. 104. pp. 209–222. DOI: https://doi.org/10.1016/j.csda.2016.07.002.
  16. Мудров В. И., Кушко В. Л. Методы обработки измерений. Квазиправдоподобные оценки. М.: Радио и связь, 1983. 304 с.
  17. Dodge Y. The Concise Encyclopedia of Statistics. New York, NY: Springer, 2008. ix+616 pp. DOI: https://doi.org/10.1007/978-0-387-32833-1.
  18. Акимов П. А., Матасов А. И. Итерационный алгоритм для $l_1$-аппроксимации в динамических задачах оценивания // Автомат. и телемех., 2015. №5. С. 7–26. EDN: TUBXHT.
  19. Тырсин А. Н. Алгоритмы спуска по узловым прямым в задаче оценивания регрессионных уравнений методом наименьших модулей // Заводская лаборатория. Диагностика материалов, 2021. Т. 87, №5. С. 68–75. EDN: OFEXNK. DOI: https://doi.org/10.26896/1028-6861-2021-87-5-68-75.
  20. Голованов О. А., Тырсин А. Н. Модифицированный алгоритм градиентного спуска по узловым прямым в задаче регрессионного анализа // Заводская лаборатория. Диагностика материалов, 2025. Т. 91, №3. С. 83–92. EDN: RLOBGS. DOI: https://doi.org/10.26896/1028-6861-2025-91-3-83-92.
  21. Тырсин А. Н., Соколов Л. А. Оценивание линейной регрессии на основе обобщенного метода наименьших модулей // Вестн. Сам. гос. техн. ун-та. Сер. Физ.-мат. науки, 2010. №5. С. 134–142. EDN: NCTNLB. DOI: https://doi.org/10.14498/vsgtu797.
  22. Cohen A., Migliorati G. Optimal weighted least-squares methods // SMAI J. Comput. Math., 2017. vol. 3. pp. 181–203. DOI: https://doi.org/10.5802/smai-jcm.25.313
  23. Панюков А. В., Тырсин А. Н. Взаимосвязь взвешенного и обобщенного вариантов метода наименьших модулей // Изв. Челяб. научн. центра, 2007. №1. С. 6–11. EDN: IBMJQX.
  24. Панюков А. В. Об устойчивом оценивании параметров авторегрессионных моделей на основе обобщенного метода наименьших модулей // Вестник НГУЭУ, 2015. №4. С. 339–346. EDN: VFZLFR.
  25. Weiszfeld E., Plastria F. On the point for which the sum of the distances to $n$ given points is minimum // Ann. Oper. Res., 2009. vol. 167, no. 1. pp. 7–41. DOI: https://doi.org/10.1007/s10479-008-0352-z.
  26. Тырсин А. Н., Азарян А. А. Точное оценивание линейных регрессионных моделей методом наименьших модулей на основе спуска по узловым прямым // Вестн. Южно-Ур. ун-та. Сер. Матем. Мех. Физ., 2018. Т. 10, №2. С. 47–56. EDN: YXCEWU. DOI: https://doi.org/10.14529/mmph180205.
  27. Голованов О. А., Тырсин А. Н. Повышение быстродействия алгоритма обобщенного метода наименьших модулей за счет уточнения области решений / Современные методы теории краевых задач. Понтрягинские чтения – XXXIII: Матер. Междун. конф. (Воронеж, 03–09 мая 2023 г.). Воронеж: ВГУ, 2023. С. 115–117. EDN: DHJTTI.
  28. Barbu A., Zhu S.-C. Introduction to Monte Carlo methods / Monte Carlo Methods. Singapore: Springer, 2020. pp. 1–17. DOI: https://doi.org/10.1007/978-981-13-2971-5_1.
  29. Tukey J. W. A survey of sampling from contaminated distributions / Contributions to Probability and Statistics. Redwood, CA: Stanford Univ. Press, 1960. pp. 443–485.
  30. Huber P. J., Ronchetti E. M. Robust Statistics / Wiley Series in Probability and Statistics. Hoboken, NJ: John Wiley & Sons, 2009. xvi+354 pp. DOI: https://doi.org/10.1002/9780470434697.
  31. Азарян А. А. Быстрые алгоритмы моделирования многомерных линейных регрессионных зависимостей на основе метода наименьших модулей : Дисс. . . . канд. физ.-мат. наук: 05.13.18 — Математическое моделирование, численные методы и комплексы программ. Екатеринбург: УрФУ, 2018. 148 с. EDN: LFRCIU.
  32. Tyrsin A. N., Golovanov O. A. Systems monitoring based on robust estimation of stochastic time series models // J. Phys.: Conf. Ser., 2022. vol. 2388, no. 1, 012074. EDN: JCWPQA. DOI: https://doi.org/10.1088/1742-6596/2388/1/012074.
  33. Гайомей Д. Высокочастотная оценка волатильности и цена опциона // Вестн. Алтайск. акад. экономики и права, 2022. №4-2. С. 167–176. EDN: BHQLDR. DOI: https://doi.org/10.17513/vaael.2153.
  34. Голованов О. А., Тырсин А. Н., Васильева Е. В. Оценка влияния пандемии COVID-19 на тренды социально-экономического развития региона России: кейс Свердловской области // J. Appl. Economic Res., 2022. Т. 21, №2. С. 257–281. EDN: EMXLYU. DOI: https://doi.org/10.15826/vestnik.2022.21.2.010.
  35. Кирьянов Б. Ф., Токмачев М. С. Математические модели в здравоохранении. Великий Новгород: НовГУ им. Ярослава Мудрого, 2009. 279 с. EDN: QLWOYH.
  36. Соболев Г. А., Закржевская Н. А., Мигунов И. Н. Влияние метеорологических условий на тектонические деформации в часовом диапазоне периодов // Физика Земли, 2021. №6. С. 20–35. EDN: HYRFUA. DOI: https://doi.org/10.31857/S0002333721060090.
  37. Короновский Н. В., Брянцева Г. В. Опасные природные процессы. М.: ИНФРА-М, 2024. 233 с.
  38. Новиков А. В., Губинский Д. Н., Зарай Е. А. Каротаж в процессе бурения — эффективный тайм-менеджмент и надежная база для оценки подсчетных параметров пласта // Актуальные проблемы нефти и газа, 2021. №3. С. 49–60. EDN: OWPUCJ. DOI: https://doi.org/10.29222/ipng.2078-5712.2021-34.art4.
  39. Клячкин В. Н., Кравцов Ю. А. Обнаружение нарушений при многомерном статистическом контроле технологического процесса // Программные продукты и системы, 2016. №3. С. 192–197. EDN: XEPQLZ. DOI: https://doi.org/10.15827/0236-235X.115.192-197.
  40. Vial G. Understanding digital transformation: A review and a research agenda // J. Strat. Inf. Syst., 2019. vol. 28, no. 2. pp. 118–144. DOI: https://doi.org/10.1016/j.jsis.2019.01.003.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Графики функций потерь $\rho(x)$ при $\lambda=0.1$ и $0.5$

Скачать (258KB)
3. Рис. 2. Графики вторых производных функций потерь в точках перегиба $x =3 \sigma$

Скачать (209KB)
4. Рис. 3. Зависимость десятичного логарифма среднего времени обработки 1000 вычислительных экспериментов (сек.) от размера выборки $n$ при $m=3$: (a) для незасоренного распределения ошибок; (b) для распределения с засорениями по Коши

Скачать (278KB)
5. Рис. 4. Десятичный логарифм среднего времени вычислений (сек.) для 1000 вычислительных экспериментов алгоритмами ВМНК, ВМНМ и обобщенного спуска при (a) $m=3$ и (b) $n=150$

Скачать (271KB)
6. Рис. 5. Динамика уровня безработицы в Свердловской области за 2016–2023 годы

Скачать (125KB)

© Авторский коллектив; Самарский государственный технический университет (составление, дизайн, макет), 2025

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».