Новые подходы к аппроксимации решений в машинном обучении

Обложка

Цитировать

Полный текст

Аннотация

Рассматриваются задачи машинного обучения, ориентированные на определение законов управления роботами со сложной локомоцией. Показывается экспоненциальная вычислительная сложность таких задач при использовании существующих методов, в частности, обучения с подкреплением. Обосновывается теоретическая возможность нахождения многомерной функции управления на основе дифференциально-алгебраических уравнений динамики таких систем за счет варьирования выбранного подмножества уравнений связей. Анализируется возможность существенного сокращения размерности пространства параметров задачи оптимизации на этой основе. Приводятся примеры использования предлагаемого метода для решения задач динамики машин, зооморфных и антропоморфных роботов. Показывается сопоставимость предложенного математического метода с нейроморфными динамическими системами, используемыми в качестве ядра в резервуарных вычислениях, и принципиальная допустимость конструирования аппаратных средств реализации резервуарных вычислений на этой основе.

Об авторах

Александр Сергеевич Горобцов

Волгоградский государственный технический университет; Институт машиноведения имени А. А. Благонравова РАН

Автор, ответственный за переписку.
Email: vm@vstu.ru

доктор технических наук, профессор, заведующий кафедрой "Высшая математика", главный научный сотрудник

Россия, Волгоград; Москва

Евгений Николаевич Рыжов

Волгоградский государственный технический университет

Email: vm@vstu.ru

кандидат физико-математических наук, доцент

Россия, Волгоград

Юлия Александровна Орлова

Волгоградский государственный технический университет

Email: yulia.orlova@gmail.com

доктор технических наук, доцент, заведующая кафедрой

Россия, Волгоград

Анастасия Романовна Донская

Волгоградский государственный технический университет

Email: donsckaia.anastasiya@yandex.ru

старший преподаватель

Россия, Волгоград

Список литературы

  1. Визильтер Ю.В., Горбацевич В.С., Желтов С.Ю. Структурно-функциональный анализ и синтез глубоких конволюционных нейронных сетей // Компьютерная Оптика. 2019. Т. 43. С. 886-900.
  2. Горобцов А.С. Обобщенная задача динамического уравновешивания и перспективные направления ее применения // Известия Высших Учебных Заведений. Машиностроение. 2023. № 3. С. 14-24.
  3. Горобцов А.С., Алешин А.К., Рашоян Г.В., Скворцов С.А., Шалюхин К.А. Управление согласованным движением группы шагающих роботов при переносе груза // Справочник. Инженерный Журнал. 2019. № 6. С. 9-16.
  4. Горобцов А., Андреев А., Марков А., Скориков А., Тарасов П. Особенности решения уравнений метода обратной задачи для синтеза устойчивого управляемого движения шагающих роботов // Информатика и автоматизация. 2019. № 18. С. 85-122.
  5. ФРУНД – Система для решения нелинейных динамических уравнений. // Электронный ресурс. URL: http://frund.vstu.ru/ (доступ 24 октября 2022).
  6. Agrawal S., Shen S., Panne M. Diverse motion variations for physics-based character animation // Proceedings Of The 12th ACM SIGGRAPH Eurographics Symposium On Computer Animation, 2013. Р. 37-44.
  7. Amirifar R., Sadati N. A low-order H00 controller design for an active suspension system via linear matrix inequalities // Journal Of Vibration And Control. 2004. V. 10. Р. 1181-1197.
  8. Bergamin K., Clavet S., Holden D., Forbes J. DReCon: data-driven responsive control of physics-based characters// ACM Transactions On Graphics (TOG). 2019. V. 38. P. 1-11.
  9. Chatzilygeroudis K., Cully A., Vassiliades V., Mouret J. Quality-Diversity Optimization: A Novel Branch of Stochastic Optimization // Black Box Optimization, Machine Learning, And No-Free Lunch Theorems. Springer. 2021. P. 109-135.
  10. Englsberger J., Werner A., Ott C., Henze B., Roa M., Garofalo G., Burger R., Beyer A., Eiberger O., Schmid K. Others Overview of the torque-controlled humanoid robot TORO // 2014 IEEE-RAS International Conference On Humanoid Robots. 2014. P. 916-923.
  11. Feng S., Whitman E., Xinjilefu X., Atkeson C. Optimization-based full body control for the darpa robotics challenge// Journal Of Field Robotics. 2015. V. 32. P. 293-312.
  12. Gorobtsov A., Kartsov S., Pletnev A., Polyakov Yu, A. Komp’yuternye metody postroeniya i issledovaniya matematicheskikh modeley dinamiki konstruktsiy avtomobiley [Computer methods of constructing and studying of mathematical models for car structural dynamics] // Mashinostroenie Publ. 201. P. 462.
  13. Gorobtsov A., Skorikov A., Tarasov P., Markov A., Andreev A. Methods of Increasing Service Minibots Functional Capabilities // Creativity In Intelligent Technologies And Data Science. Third Conference // CIT&DS. 2019. P. 191-202.
  14. Gorobtsov A., Sychev O., Orlova Yu., Smirnov E., Grigoreva O., Bochkin A., Andreeva M. Optimal Greedy Control in Reinforcement Learning // Sensors. 2022. P. 14.
  15. Guglielmino E., Sireteanu T., Stammers C., Ghita G., Giuclea M. Semi-active suspension control: improved vehicle ride and road friendliness // Springer Science & Business Media. 2008. P. 302.
  16. Haarnoja T., Ha S., Zhou A., Tan J., Tucker G., Levine S. Learning to walk via deep reinforcement learning // ArXiv Preprint. 2018.
  17. Haykin S. Neural Networks and Learning Machines // Prentice Hall. 2009. P. 906.
  18. Heess N., Tb D., Sriram S., Lemmon J., Merel J., Wayne G., Tassa Y., Erez T., Wang Z., Eslami S. Others Emergence of locomotion behaviours in rich environments // ArXiv Preprint. 2017.
  19. Hessel M., Modayil J., Van Hasselt H., Schaul T., Ostrovski G., Dabney W., Horgan D., Piot B., Azar M., Silver D. Rainbow: Combining improvements in deep reinforcement learning // Proceedings Of The AAAI Conference On Artificial Intelligence, 2018. V. 32. P. 14.
  20. Hochreiter S. Schmidhuber J. Long Short-Term Memory // Neural Computation. 1997. V. 9. P. 1735-1780.
  21. Karnopp D. Active damping in road vehicle suspension systems // Vehicle System Dynamics. 1983. V. 12. P. 291-311.
  22. Mania H., Guy A. Recht B. Simple random search provides a competitive approach to reinforcement learning // ArXiv Preprint. 2018.
  23. Масленников О.В., Пугавко М.М., Щапин Д.С., Некоркин В.И. Нелинейная динамика и машинное обучение рекуррентных спайковых нейронных сетей // Успехи физических наук. 2022. Т. 192. № 10. С. 1089-1109.
  24. Mnih V., Kavukcuoglu K., Silver D., Graves A., Antonoglou I., Wierstra D. Riedmiller M. Playing Atari with deep reinforcement learning // ArXiv Preprint. 2013.
  25. Mouret J., Maguire G. Quality diversity for multi-task optimization // Proceedings Of The 2020 Genetic And Evolutionary Computation Conference. 2020. V. 6. P. 9.
  26. Nakajima K., Fisher I. Reservoir Computing // Springer, 2021.
  27. Peters J., Schaal S. Reinforcement learning of motor skills with policy gradients. Neural Networks // The Official Journal Of The International Neural Network Society. 2008. V. 21. No 4. P. 682-97.
  28. Schulman J., Wolski F., Dhariwal P., Radford A., Klimov,O. Proximal Policy Optimization Algorithms // ArXiv Preprint. 2017.
  29. Siekmann J., Godse Y., Fern A., Hurst J. Sim-to-real learning of all common bipedal gaits via periodic reward composition // 2021 IEEE International Conference On Robotics And Automation (ICRA). 2021. P. 7309-7315.
  30. Silver D., Hubert T., Schrittwieser J., Antonoglou I., Lai M., Guez A., Lanctot M., Sifre L., Kumaran D., Graepel T. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play // Science. 2018. V. 362. P. 1140-1144.
  31. Surana S., Lim B., Cully A. Efficient Learning of Locomotion Skills through the Discovery of Diverse Environmental Trajectory Generator Priors // ArXiv Preprint. 2022.
  32. Sutton R. Barto A.G. Reinforcement Learning // MIT Press. 2020. P. 547.
  33. Valueva M., Nagornov N., Lyakhov P., Valuev G., Chervyakov N. Application of the residue number system to reduce hardware costs of the convolutional neural network implementation // Mathematics and Computers in Simulation. 2020. V. 177. P. 232-243.
  34. Veselov G., Sinicyn A. Synthesis of nonlinear control law for car hydraulic suspension with regard kinematic constraints // 12th International Conference On Developments In ESystems Engineering (DeSE). 2019. P. 704-708.
  35. Xie Z., Berseth G., Clary P., Hurst J., Panne M. Feedback Control For Cassie With Deep Reinforcement Learning // IEEE/RSJ International Conference On Intelligent Robots And Systems (IROS). 2018. P. 1241-1246.
  36. Yagiz N., Hacioglu Y., Taskin Y. Fuzzy sliding-mode control of active suspensions // IEEE Transactions On Industrial Electronics. 2008. V. 55. P. 3883-3890.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».