A general algorithm for eliminating critical conditions for solving the problem of controlling a real walking robot based on deep reinforcement learning methods

Vasily Vasil'evich Kashko; Кашко Василий Васильевич; Svetlana Alexandrovna Oleinikova; Олейникова Светлана Александровна

doi:10.7256/2454-0714.2025.3.75996

Общий алгоритм ликвидации критических состояний для решения задачи управления реальным шагающим роботом на основе методов глубокого обучения с подкреплением

Авторы: Кашко В.В.¹, Олейникова С.А.¹
Учреждения:
1. Воронежский государственный технический университет
Выпуск: № 3 (2025)
Страницы: 103-114
Раздел: Статьи
URL: https://bakhtiniada.ru/2454-0714/article/view/359346
DOI: https://doi.org/10.7256/2454-0714.2025.3.75996
EDN: https://elibrary.ru/OOVYNZ
ID: 359346

Цитировать

Полный текст

Аннотация
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

Объектом исследования является мобильный шагающий робот с двумя или более подвижными конечностями шарнирного типа. Вводится понятие «критического состояния», при возникновении которого механизм балансирует на грани падения (но не падает) или возникает вероятность повреждения механических узлов, по причине генерации недопустимых углов сочленений. Предметом исследования является общий алгоритм ликвидации критических состояний, обеспечивающий возможность обучения агента, основанного на глубоком алгоритме обучения с подкреплением, напрямую на реальном роботе, без риска повреждения его механизмов и прерывания процесса взаимодействия с окружающей средой для восстановления устойчивого состояния. Целью данной работы является разработка общего алгоритма ликвидации критических состояний в контексте адаптивного управления шагающим роботом на основе алгоритмов глубокого обучения с подкреплением. Было произведено сравнение предлагаемого и стандартного способов применения глубокого ОП на реальном роботе. Эксперименты проводились на 6000 эпизодах, размерностью в 300 шагов каждый. Для оценки были выбраны следующие метрики качества: процент эпизодов без фактического падения, процент полностью завершённых эпизодов, максимальная длина эпизода. Формирование алгоритма основывается на понятии «критическое состояние» и использует следующие принципы и методы: метод «проб и ошибок», принцип обратной связи, удержание проекции точки центра тяжести в области многоугольника, образованного точками соприкосновения конечностей с рабочей поверхностью, что обеспечивает балансировку конструкции и позволяет определить пограничные области, в которых робот ещё устойчив. Научная новизна работы заключается в предлагаемом подходе, позволяющем интеллектуальному агенту управлять физическим роботом «напрямую», без предварительной настройки в имитационной среде с последующей реализацией переноса. Предлагаемый алгоритм не направлен на повышение производительности агента, а предназначается для обеспечения большей автономности в процессе обучения робота, непосредственно в «железе». Основная идея заключается в моментальном реагировании на возникшее критическое состояние в виде наискорейшего последовательного возврата на некоторое число шагов назад по траектории принятия решений, обеспечив агенту постоянное пребывание в стабильном безопасном состоянии. В качестве метода глубокого обучения с подкреплением был использован метод проксимальной оптимизации политики (PPO). В результате сравнительного анализа предлагаемый алгоритм продемонстрировал сто кратный прирост устойчивости механизма.

Ключевые слова

система управления, обучение с подкреплением, глубокие нейронные сети, алгоритм, интеллектуальный агент, критическое состояние, шагающий робот, локомоторная программа, стабилизация, окружающая среда

Об авторах

Василий Васильевич Кашко

Воронежский государственный технический университет

Email: vasya.kashko@mail.ru
ORCID iD: 0009-0009-6146-9295
аспирант; кафедра автоматизированных и вычислительных систем;

Светлана Александровна Олейникова

Воронежский государственный технический университет

Email: s.a.oleynikova@gmail.com
ORCID iD: 0000-0002-0333-2313
профессор; кафедра автоматизированных и вычислительных систем;

Список литературы

Саттон, Р. С. Обучение с подкреплением: Введение. 2-е изд. : Пер. с англ. / Р. Саттон, Э. Барто. – Москва : ДМК Пресс, 2020. – 552 с. : ил. – ISBN 978-5-97060-097-9.
Моралес, Мигель. Грокаем глубокое обучение с подкреплением : учебное пособие / М. Моралес. – Санкт-Петербург : Питер, 2023. – 464 с. : ил. – (Серия "Библиотека программиста"). – ISBN 978-5-4461-3944-6.
Уиндер, Ф. Обучение с подкреплением для реальных задач / пер. с англ. – СПб.: БХВ-Петербург, 2023. – 400 с. : ил. – ISBN 978-5-9775-6885-2.
Ришал Харбанс. Грокаем алгоритмы искусственного интеллекта. – СПб.: Питер, 2023. – 368 с.: ил. – (Серия "Библиотека программиста"). – ISBN 978-5-4461-2924-9.
Кашко, В. В. Применение методов обучения с подкреплением для реализации движения шагающих роботов / В. В. Кашко, С. А. Олейникова // Современные информационные технологии. Теория и практика. – 2024. – С. 256-262. – EDN: GRDVBI.
Кашко, В. В. Анализ методов обучения с подкреплением для управления роботизированными системами / В. В. Кашко, С. А. Олейникова // Инновационные технологии: теория, инструменты, практика. – 2024. – Т. 1. – С. 133-140. – EDN: LTXEUX.
Юревич, Е. И. Основы робототехники – 4-е изд., перераб. и доп.: учебное пособие / Е. Юревич. – СПб.: БХВ-Петербург, 2017. – 304 с.: ил. – (Учебная литература для вузов). – ISBN 978-5-9775-3851-0.
Y. Shao, Y. Jin, X. Liu, W. He, H. Wang, and W. Yang, “Learning free gait transition for quadruped robots via phase-guided controller,” IEEE Robotics and Automation Letters, vol. 7, no. 2, pp. 1230-1237, 2021.
X. B. Peng, M. Andrychowicz, W. Zaremba, and P. Abbeel, “Sim-to-real transfer of robotic control with dynamics randomization,” in 2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018, pp. 3803-3810.
Gangapurwala, S., Mitchell, A., and Hacoutis, I. Guided constrained policy optimization for dynamic quadrupedal robot locomotion. IEEE Robot. Autom. Lett. 5, 3642-3649, 2020. doi: 10.1109/LRA.2020.2979656. – EDN: ZSVETN.
Hwangbo, J., Lee, J., Dosovitskiy, A., Bellicoso, D., Tsounis, V., Koltun, V., and Hutter, M. Learning agile and dynamic motor skills for legged robots. Science Robotics. 4, eaau5872, 2019. 10.1126/scirobotics.aau5872.
F. Zhang, J. Leitner, M. Milford, and P. Corke, “Modular deep Q networks for sim-to-real transfer of visuo-motor policies,” arXiv preprint arXiv:1610.06781, 2016.
J. Tobin, R. Fong, A. Ray, J. Schneider, W. Zaremba, and P. Abbeel, “Domain randomization for transferring deep neural networks from simulation to the real world,” in 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2017, pp. 23-30.
K. Cobbe, O. Klimov, C. Hesse, T. Kim, and J. Schulman, “Quantifying generalization in reinforcement learning,” arXiv preprint arXiv:1812.02341, 2018.
Smith, L., Kew, J., Li, T., Luu, L., Peng, X., Ha, S., Tan, J., and Levine, S. Learning and Adapting Agile Locomotion Skills by Transferring Experience. 2023. 10.48550/arXiv.2304.09834.
L. Han, Q. Zhu, J. Sheng, C. Zhang, T. Li, Y. Zhang, H. Zhang, Y. Liu, C. Zhou, R. Zhao et al., “Lifelike agility and play on quadrupedal robots using reinforcement learning and generative pretrained models,” arXiv preprint arXiv:2308.15143, 2023.
Кашко, В. В. Математическая модель универсальной системы управления шагающим роботом на основе методов обучения с подкреплением / В. В. Кашко, С. А. Олейникова // Моделирование, оптимизация и информационные технологии. – 2024. – Т. 12. – № 1(44). – С. 12. – doi: 10.26102/2310-6018/2024.44.1.025. – EDN: HBSQBB.
Kashko, V. V. Formalization of the task of controlling the movement of a walking robot / V. V. Kashko, S. A. Oleinikova // Anthropocentric sciences in education: challenges, transformations, resources. – 2024. – P. 342-345. – EDN: ASVCIB.
Кашко, В. В. Формализация задачи управления шагающим роботом на основе алгоритмов обучения с подкреплением / В. В. Кашко, С. А. Олейникова // Интеллектуальные информационные системы. Труды Международной научно-практической конференции. Воронеж. – 2025. – С. 243-247.
Кашко, В. В. Обобщённый алгоритм решения задачи управления шагающим роботом на базе интеллектуального агента с использованием методов глубокого обучения с подкреплением / В. В. Кашко, С. А. Олейникова // Научная опора Воронежской области. Сборник трудов победителей конкурса научно-исследовательских работ студентов и аспирантов ВГТУ по приоритетным направлениям развития науки и технологий. Воронеж. – 2025. – С. 155-158. – EDN: OOTOMR.
Pestell, N., Griffith, T., Lepora, N. F. Artificial SA-I and RA-I afferents for tactile sensing of ridges and gratings. J. R. Soc. Interface. 19: 20210822, 2022. https://doi.org/10.1098/rsif.2021.0822. – EDN: QHNGNT.
Юревич, Е. И. Сенсорные системы в робототехнике : учеб. пособие / Е. И. Юревич. – СПб. : Изд-во Политехн. ун-та, 2013. – 100 с.
Lecture 5: Совместное развитие сенсорики и робототехники. [Электронный ресурс]: издание официальное. Москва : Интернет-Университет Информационных Технологий (ИНТУИТ), 2024. URL : https://intuit.ru/en/studies/courses/22789/1324/lecture/33070?page=5 – Дата публикации: 07.10.2024.
Самойлова, А. С. Система управления шагающим роботом, адаптивным к изменению кинематической схемы / А. С. Самойлова, С. А. Воротников // Мехатроника, автоматизация, управление. – Москва : Новые технологии, 2021. – Т. 22 : Роботы, мехатроника и робототехнические системы – № 11. – С. 601-609. – doi: 10.17587/mau.22.601-609. – EDN: RHGNTJ.
Сиволобов, С. В. Математическое моделирование походки человека на основе пятизвенной модели антропоморфного механизма с использованием методов оптимизации / С. В. Сиволобов // Математическая физика и компьютерное моделирование. – 2024. – Т. 27. – № 1. – С. 62-85. – doi: 10.15688/mpcm.jvolsu.2024.1.5. – EDN: AUNGTZ.

Дополнительные файлы

Доп. файлы

Действие

1. JATS XML

Скачать

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

№ 3 (2025)