Общий алгоритм ликвидации критических состояний для решения задачи управления реальным шагающим роботом на основе методов глубокого обучения с подкреплением

Обложка

Цитировать

Полный текст

Аннотация

Объектом исследования является мобильный шагающий робот с двумя или более подвижными конечностями шарнирного типа. Вводится понятие «критического состояния», при возникновении которого механизм балансирует на грани падения (но не падает) или возникает вероятность повреждения механических узлов, по причине генерации недопустимых углов сочленений. Предметом исследования является общий алгоритм ликвидации критических состояний, обеспечивающий возможность обучения агента, основанного на глубоком алгоритме обучения с подкреплением, напрямую на реальном роботе, без риска повреждения его механизмов и прерывания процесса взаимодействия с окружающей средой для восстановления устойчивого состояния. Целью данной работы является разработка общего алгоритма ликвидации критических состояний в контексте адаптивного управления шагающим роботом на основе алгоритмов глубокого обучения с подкреплением. Было произведено сравнение предлагаемого и стандартного способов применения глубокого ОП на реальном роботе. Эксперименты проводились на 6000 эпизодах, размерностью в 300 шагов каждый. Для оценки были выбраны следующие метрики качества: процент эпизодов без фактического падения, процент полностью завершённых эпизодов, максимальная длина эпизода. Формирование алгоритма основывается на понятии «критическое состояние» и использует следующие принципы и методы: метод «проб и ошибок», принцип обратной связи, удержание проекции точки центра тяжести в области многоугольника, образованного точками соприкосновения конечностей с рабочей поверхностью, что обеспечивает балансировку конструкции и позволяет определить пограничные области, в которых робот ещё устойчив. Научная новизна работы заключается в предлагаемом подходе, позволяющем интеллектуальному агенту управлять физическим роботом «напрямую», без предварительной настройки в имитационной среде с последующей реализацией переноса. Предлагаемый алгоритм не направлен на повышение производительности агента, а предназначается для обеспечения большей автономности в процессе обучения робота, непосредственно в «железе». Основная идея заключается в моментальном реагировании на возникшее критическое состояние в виде наискорейшего последовательного возврата на некоторое число шагов назад по траектории принятия решений, обеспечив агенту постоянное пребывание в стабильном безопасном состоянии. В качестве метода глубокого обучения с подкреплением был использован метод проксимальной оптимизации политики (PPO). В результате сравнительного анализа предлагаемый алгоритм продемонстрировал сто кратный прирост устойчивости механизма.

Об авторах

Василий Васильевич Кашко

Воронежский государственный технический университет

Email: vasya.kashko@mail.ru
ORCID iD: 0009-0009-6146-9295
аспирант; кафедра автоматизированных и вычислительных систем;

Светлана Александровна Олейникова

Воронежский государственный технический университет

Email: s.a.oleynikova@gmail.com
ORCID iD: 0000-0002-0333-2313
профессор; кафедра автоматизированных и вычислительных систем;

Список литературы

  1. Саттон, Р. С. Обучение с подкреплением: Введение. 2-е изд. : Пер. с англ. / Р. Саттон, Э. Барто. – Москва : ДМК Пресс, 2020. – 552 с. : ил. – ISBN 978-5-97060-097-9.
  2. Моралес, Мигель. Грокаем глубокое обучение с подкреплением : учебное пособие / М. Моралес. – Санкт-Петербург : Питер, 2023. – 464 с. : ил. – (Серия "Библиотека программиста"). – ISBN 978-5-4461-3944-6.
  3. Уиндер, Ф. Обучение с подкреплением для реальных задач / пер. с англ. – СПб.: БХВ-Петербург, 2023. – 400 с. : ил. – ISBN 978-5-9775-6885-2.
  4. Ришал Харбанс. Грокаем алгоритмы искусственного интеллекта. – СПб.: Питер, 2023. – 368 с.: ил. – (Серия "Библиотека программиста"). – ISBN 978-5-4461-2924-9.
  5. Кашко, В. В. Применение методов обучения с подкреплением для реализации движения шагающих роботов / В. В. Кашко, С. А. Олейникова // Современные информационные технологии. Теория и практика. – 2024. – С. 256-262. – EDN: GRDVBI.
  6. Кашко, В. В. Анализ методов обучения с подкреплением для управления роботизированными системами / В. В. Кашко, С. А. Олейникова // Инновационные технологии: теория, инструменты, практика. – 2024. – Т. 1. – С. 133-140. – EDN: LTXEUX.
  7. Юревич, Е. И. Основы робототехники – 4-е изд., перераб. и доп.: учебное пособие / Е. Юревич. – СПб.: БХВ-Петербург, 2017. – 304 с.: ил. – (Учебная литература для вузов). – ISBN 978-5-9775-3851-0.
  8. Y. Shao, Y. Jin, X. Liu, W. He, H. Wang, and W. Yang, “Learning free gait transition for quadruped robots via phase-guided controller,” IEEE Robotics and Automation Letters, vol. 7, no. 2, pp. 1230-1237, 2021.
  9. X. B. Peng, M. Andrychowicz, W. Zaremba, and P. Abbeel, “Sim-to-real transfer of robotic control with dynamics randomization,” in 2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018, pp. 3803-3810.
  10. Gangapurwala, S., Mitchell, A., and Hacoutis, I. Guided constrained policy optimization for dynamic quadrupedal robot locomotion. IEEE Robot. Autom. Lett. 5, 3642-3649, 2020. doi: 10.1109/LRA.2020.2979656. – EDN: ZSVETN.
  11. Hwangbo, J., Lee, J., Dosovitskiy, A., Bellicoso, D., Tsounis, V., Koltun, V., and Hutter, M. Learning agile and dynamic motor skills for legged robots. Science Robotics. 4, eaau5872, 2019. 10.1126/scirobotics.aau5872.
  12. F. Zhang, J. Leitner, M. Milford, and P. Corke, “Modular deep Q networks for sim-to-real transfer of visuo-motor policies,” arXiv preprint arXiv:1610.06781, 2016.
  13. J. Tobin, R. Fong, A. Ray, J. Schneider, W. Zaremba, and P. Abbeel, “Domain randomization for transferring deep neural networks from simulation to the real world,” in 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2017, pp. 23-30.
  14. K. Cobbe, O. Klimov, C. Hesse, T. Kim, and J. Schulman, “Quantifying generalization in reinforcement learning,” arXiv preprint arXiv:1812.02341, 2018.
  15. Smith, L., Kew, J., Li, T., Luu, L., Peng, X., Ha, S., Tan, J., and Levine, S. Learning and Adapting Agile Locomotion Skills by Transferring Experience. 2023. 10.48550/arXiv.2304.09834.
  16. L. Han, Q. Zhu, J. Sheng, C. Zhang, T. Li, Y. Zhang, H. Zhang, Y. Liu, C. Zhou, R. Zhao et al., “Lifelike agility and play on quadrupedal robots using reinforcement learning and generative pretrained models,” arXiv preprint arXiv:2308.15143, 2023.
  17. Кашко, В. В. Математическая модель универсальной системы управления шагающим роботом на основе методов обучения с подкреплением / В. В. Кашко, С. А. Олейникова // Моделирование, оптимизация и информационные технологии. – 2024. – Т. 12. – № 1(44). – С. 12. – doi: 10.26102/2310-6018/2024.44.1.025. – EDN: HBSQBB.
  18. Kashko, V. V. Formalization of the task of controlling the movement of a walking robot / V. V. Kashko, S. A. Oleinikova // Anthropocentric sciences in education: challenges, transformations, resources. – 2024. – P. 342-345. – EDN: ASVCIB.
  19. Кашко, В. В. Формализация задачи управления шагающим роботом на основе алгоритмов обучения с подкреплением / В. В. Кашко, С. А. Олейникова // Интеллектуальные информационные системы. Труды Международной научно-практической конференции. Воронеж. – 2025. – С. 243-247.
  20. Кашко, В. В. Обобщённый алгоритм решения задачи управления шагающим роботом на базе интеллектуального агента с использованием методов глубокого обучения с подкреплением / В. В. Кашко, С. А. Олейникова // Научная опора Воронежской области. Сборник трудов победителей конкурса научно-исследовательских работ студентов и аспирантов ВГТУ по приоритетным направлениям развития науки и технологий. Воронеж. – 2025. – С. 155-158. – EDN: OOTOMR.
  21. Pestell, N., Griffith, T., Lepora, N. F. Artificial SA-I and RA-I afferents for tactile sensing of ridges and gratings. J. R. Soc. Interface. 19: 20210822, 2022. https://doi.org/10.1098/rsif.2021.0822. – EDN: QHNGNT.
  22. Юревич, Е. И. Сенсорные системы в робототехнике : учеб. пособие / Е. И. Юревич. – СПб. : Изд-во Политехн. ун-та, 2013. – 100 с.
  23. Lecture 5: Совместное развитие сенсорики и робототехники. [Электронный ресурс]: издание официальное. Москва : Интернет-Университет Информационных Технологий (ИНТУИТ), 2024. URL : https://intuit.ru/en/studies/courses/22789/1324/lecture/33070?page=5 – Дата публикации: 07.10.2024.
  24. Самойлова, А. С. Система управления шагающим роботом, адаптивным к изменению кинематической схемы / А. С. Самойлова, С. А. Воротников // Мехатроника, автоматизация, управление. – Москва : Новые технологии, 2021. – Т. 22 : Роботы, мехатроника и робототехнические системы – № 11. – С. 601-609. – doi: 10.17587/mau.22.601-609. – EDN: RHGNTJ.
  25. Сиволобов, С. В. Математическое моделирование походки человека на основе пятизвенной модели антропоморфного механизма с использованием методов оптимизации / С. В. Сиволобов // Математическая физика и компьютерное моделирование. – 2024. – Т. 27. – № 1. – С. 62-85. – doi: 10.15688/mpcm.jvolsu.2024.1.5. – EDN: AUNGTZ.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».