Application of Mathematical Programming for Selection the Optimal Structures of Multivariate Linear Regressions

Capa

Citar

Texto integral

Acesso aberto Acesso aberto
Acesso é fechado Acesso está concedido
Acesso é fechado Somente assinantes

Resumo

In this article formulates the problem of simultaneous selection of both responses and explanatory variables in multivariate linear regressions. This problem is called «key responses and relevant features selection». The ordinary least squares method is used to estimate regressions. First, the problem of selecting a given number of key responses and relevant features by the criterion of the maximum sum of the regression determination coefficients was reduced to a mixed 0-1 integer linear programming problem. Then, restrictions on the signs of the estimates were introduced into it, which made it possible to select optimal structures of multivariate regressions. After that, restrictions on the absolute contributions of regressors to the overall determinations were added, which allows controlling the number of explanatory variables. When conducting computational experiments on real data with a fixed number of key responses, the time required to construct multivariate models using the proposed method was approximately 67.3 times less than the time required to construct them using the generating all subsets method. At the same time, tightening the restrictions on the absolute contributions of regressors further reduced the time required to solve problems.

Sobre autores

Mikhail Bazilevskiy

Irkutsk State Transport University

Autor responsável pela correspondência
Email: mik2178@yandex.ru

Associate Professor, Candidate of technical sciences

Rússia, Irkutsk

Bibliografia

  1. Joshi A., Raman B., Mohan C.K., Cenkeramaddi L.R. Application of a new machine learning model to improve earthquake ground motion predictions. Natural Hazards. 2024;120(1):729–753. doi: 10.1007/s11069-023-06230-4.
  2. Talukder M.A., Hasan K.F., Islam M.M., Uddin M.A., Akhter A., Yousuf M.A., Alharbi F., Moni M.A. A dependable hybrid machine learning model for network intrusion detection. Journal of Information Security and Applications. 2023;72:103405. doi: 10.1016/j.jisa.2022.103405.
  3. Amini M., Sharifani K., Rahmani A. Machine learning model towards evaluating data gathering methods in manufacturing and mechanical engineering. International Journal of Applied Science and Engineering Research. 2023;15(2023):349–362.
  4. Molnar C. Interpretable machine learning. Lulu. Com; 2020.
  5. Tarasova Ju.A., Fevraleva E.S. Forecasting of bankruptcy: Evidence from insurance companies in Russia. Financial Journal. 2021;13(4):75–90 (In Russ.).
  6. Mokhtar A., Elbeltagi A., Gyasi-Agyei Y., Al-Ansari N., Abdel-Fattah M.K. Prediction of irrigation water quality indices based on machine learning and regression models. Applied Water Science. 2022;12(4):76. doi: 10.1007/s13201-022-01590-x.
  7. Wang S., Chen Y., Cui Z., Lin L., Zong Y. Diabetes Risk Analysis Based on Machine Learning LASSO Regression Model. Journal of Theory and Practice of Engineering Science. 2024;4(01):58–64. doi: 10.53469/jtpes.2024.04(01).08.
  8. Cai W., Wen X., Li C., Shao J., Xu J. Predicting the energy consumption in buildings using the optimized support vector regression model. Energy. 2023;273:127188. doi: 10.1016/j.energy.2023.127188.
  9. Aivazjan S.A., Mhitarjan V.S. Applied statistics and basics of econometrics. Moscow: YUNITI; 1998. 1005 p. (In Russ.).
  10. Miller A. Subset selection in regression. Chapman and hall/CRC; 2002.
  11. Das A., Kempe D. Algorithms for subset selection in linear regression. Proceedings of the fortieth annual ACM symposium on Theory of computing. 2008:45–54. doi: 10.1145/1374376.1374384.
  12. Koch T., Berthold T., Pedersen J., Vanaret C. Progress in mathematical programming solvers from 2001 to 2020. EURO Journal on Computational Optimization. 2022;10:100031. doi: 10.1016/j.ejco.2022.100031.
  13. Konno H., Yamamoto R. Choosing the best set of variables in regression analysis using integer programming. Journal of Global Optimization. 2009;44:273–282. doi: 10.1007/s10898-008-9323-9.
  14. Miyashiro R., Takano Y. Mixed integer second-order cone programming formulations for variable selection in linear regression. European Journal of Operational Research. 2015;247(3):721–731. doi: 10.1016/j.ejor.2015.06.081.
  15. Tamura R., Kobayashi K., Takano Y., Miyashiro R., Nakata K., Matsui T. Mixed integer quadratic optimization formulations for eliminating multicollinearity based on variance inflation factor. Journal of Global Optimization. 2019;73:431–446. doi: 10.1007/s10898-018-0713-3.
  16. Park Y.W., Klabjan D. Subset selection for multiple linear regression via optimization. Journal of Global Optimization. 2020;77(3):543–574. doi: 10.1007/s10898-020-00876-1.
  17. Saishu H., Kudo K., Takano Y. Sparse Poisson regression via mixed-integer optimization. Plos one. 2021;16(4):e0249916. doi: 10.1371/journal.pone.0249916.
  18. Bazilevskiy M.P. Reduction the problem of selecting informative regressors when estimating a linear regression model by the method of least squares to the problem of partial-Boolean linear programming. Modeling, Optimization and Information Technology. 2018;6(1):108–117. (In Russ.).
  19. Bazilevskiy M.P. Subset selection in regression models with considering multicollinearity as a task of mixed 0-1 integer linear programming. Modeling, Optimization and Information Technology. 2018;6(2):104–118. (In Russ.).
  20. Bazilevskiy M.P. Selection an optimal number of variables in regression models using adjusted coefficient of determination as a mixed integer linear programming problem. Applied Mathematics and Control Sciences. 2020;(2):41–54. (In Russ.).
  21. Bazilevskiy M.P. Construction of quite interpretable linear regression models using the method of successive increase the absolute contributions of variables to the general determination. Proceedings of Voronezh State University. Series: Systems Analysis and Information Technologies. 2022;(2):5–16. (In Russ.). doi: 10.17308/sait/1995-
  22. /2022/2/5-16.
  23. Bazilevskiy M.P. Comparative analysis of the effectiveness of methods for constructing quite interpretable linear regression models. Modelling and Data Analysis. 2023;13(4):59–83. (In Russ.). doi: 10.17759/mda.2023130404.
  24. Shukla S., Jain P.K., Babu C.R., Pamula R. A multivariate regression model for identifying, analyzing and predicting crimes. Wireless Personal Communications. 2020;113(4):2447–2461. doi: 10.1007/s11277-020-07335-w.
  25. Langenbucher A., Szentmáry N., Cayless A., Weisensee J., Wendelstein J., Hoffmann P. Prediction of corneal back surface power–deep learning algorithm versus multivariate regression. Ophthalmic and Physiological Optics. 2022;42(1):185–194. doi: 10.1111/opo.12909.
  26. Ferster E., Rents B. Methods of correlation and regression analysis. Moscow: Finance and Statistics; 1983. 303 p. (In Russ.).

Arquivos suplementares

Arquivos suplementares
Ação
1. JATS XML


Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».