Implicit Understanding: Decoding Swarm Behaviors in Robots through Deep Inverse Reinforcement Learning

Capa

Citar

Texto integral

Resumo

Using reinforcement learning to generate the collective behavior of swarm robots is a common approach. Yet, formulating an appropriate reward function that aligns with specific objectives remains a significant challenge, particularly as the complexity of tasks increases. In this paper, we develop a deep inverse reinforcement learning model to uncover the reward structures that guide autonomous robots in achieving tasks by demonstrations. Deep inverse reinforcement learning models are particularly well-suited for complex and dynamic environments where predefined reward functions may be difficult to specify. Our model can generate different collective behaviors according to the required objectives and effectively copes with continuous state and action spaces, ensuring a nuanced recovery of reward structures. We tested the model using E-puck robots in the Webots simulator to solve two tasks: searching for dispersed boxes and navigation to a predefined position. Receiving rewards depends on demonstrations collected by an intelligent pre-trained swarm using reinforcement learning act as an expert. The results show successful recovery of rewards in both segmented and continuous demonstrations for two behaviors – searching and navigation. By observing the learned behaviors of the swarm by the expert and proposed model, it is noticeable that the model does not merely clone the expert behavior but generates its own strategies to achieve the system’s objectives.

Sobre autores

A. Iskandar

University of Miskolc

Autor responsável pela correspondência
Email: iskandar.alaa@student.uni-miskolc.hu
Egyetemvaros -

A. Hammoud

Federal State Budgetary Educational Institution of Higher Education “Kuban State Agrarian University named after I.T. Trubilin”

Email: ali-hammoud@mail.ru
Kalinina St. 13

B. Kovács

University of Miskolc

Email: matmn@uni-miskolc.hu
Egyetemvaros -

Bibliografia

  1. Shahzad M., Saeed Z., Akhtar A., Munawar H., Yousaf M., Baloach N., Hussain F. A review of swarm robotics in a nutshell. Drones. 2023. vol. 7. no. 4.
  2. Schranz M., Umlauft M., Sende M., Elmenreich W. Swarm robotic behaviors and current applications. Frontiers in Robotics and AI. 2020. vol. 7.
  3. Cheraghi A., Shahzad S., Graffi K. Past, present, and future of swarm robotics. In Intelligent Systems and Applications: Proceedings of the 2021 Intelligent Systems Conference (IntelliSys). 2022. vol. 3. pp. 190–233.
  4. Brambilla M., Ferrante E., Birattari M., Dorigo M. Swarm robotics: a review from the swarm engineering perspective. Swarm Intelligence. 2013. vol. 7. pp. 1-41.
  5. Nauta J., Van Havermaet S., Simoens P., Khaluf Y. Enhanced foraging in robot swarms using collective lévy walks. In 24th European Conference on Artificial Intelligence (ECAI). 2020. pp. 171–178.
  6. Misir O., Gokrem L. Flocking-based self-organized aggregation behavior method for swarm robotics. Iranian Journal of Science and Technology, Transactions of Electrical Engineering. 2021. vol. 45. no. 4. pp. 1427–1444.
  7. Sadeghi A., Raoufi M., Turgut A. A self-adaptive landmark-based aggregation method for robot swarms. Adaptive Behavior. 2022. vol. 30. no. 3. pp. 223–236.
  8. Lu Q., Hecker J., Moses M. The MPFA: A multiple-place foraging algorithm for biologically-inspired robot swarms. In 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2016. pp. 3815–3821.
  9. Lopes Y., Trenkwalder S., Leal A., Dodd T., Groß R. Supervisory control theory applied to swarm robotics. Swarm Intelligence. 2016. vol. 10. pp. 65–97.
  10. Hamann H. Swarm robotics: A formal approach. Cham: Springer, 2018. 210 p.
  11. Berlinger F., Gauci M., Nagpal R. Implicit coordination for 3D underwater collective behaviors in a fish-inspired robot swarm. Science Robotics. 2021. vol. 6. no. 50. doi: 10.1126/scirobotics.abd8668.
  12. Zhang J., Lu Y., Che L., Zhou M. Moving-distance-minimized PSO for mobile robot swarm. IEEE Transactions on Cybernetics. 2021. vol. 52. no. 9. pp. 9871–9881.
  13. Parhi D., Sahu C., Kumar P. Navigation of multiple humanoid robots using hybrid adaptive swarm-adaptive ant colony optimisation technique. Computer Animation and Virtual Worlds. 2018. vol. 29. no. 2. doi: 10.1002/cav.1802.
  14. Jiang L., Mo H., Tian P. An adaptive decentralized control strategy for deployment and aggregation of swarm robots based on bacterial chemotaxis. Applied Intelligence. 2023. vol. 53. no. 10. pp. 13018–13036.
  15. Hu C., Arvin F., Bellotto N., Yue S., Li H. Swarm neuro-robots with the bio-inspired environmental perception. Frontiers in Neurorobotics. 2024. vol. 18.
  16. Hasselmann K., Ligot A., Birattari M. Automatic modular design of robot swarms based on repertoires of behaviors generated via novelty search. Swarm and Evolutionary Computation. 2023. vol. 83.
  17. Birattari M., Ligot A., Francesca G. AutoMoDe: a modular approach to the automatic off-line design and fine-tuning of control software for robot swarms. Automated Design of Machine Learning and Search Algorithms. 2021. pp. 73–90.
  18. Stolfi D., Danoy G. Evolutionary swarm formation: From simulations to real world robots. Engineering Applications of Artificial Intelligence. 2024. vol. 128. doi: 10.1016/j.engappai.2023.107501.
  19. Blais M., Akhloufi M. Reinforcement learning for swarm robotics: An overview of applications, algorithms and simulators. Cognitive Robotics. 2023. vol. 3. pp. 226–256. doi: 10.1016/j.cogr.2023.07.004.
  20. Sutton R., Barto A. Reinforcement learning: An introduction. The MIT press, 2018. 552 p.
  21. Iskandar A., Rostum H., Kovacs B. Using Deep Reinforcement Learning to Solve a Navigation Problem for a Swarm Robotics System. Proceedings of the 24th International Carpathian Control Conference (ICCC). IEEE, 2023. pp. 185–189.
  22. Wei Y., Nie X., Hiraga M., Ohkura K., Car Z. Developing end to end control policies for robotic swarms using deep Q-learning. Journal of Advanced Computational Intelligence and Intelligent Informatics. 2019. vol. 23. no. 5. pp. 920–927.
  23. Jin B., Liang Y., Han Z., Hiraga M., Ohkura K. A hierarchical training method of generating collective foraging behavior for a robotic swarm. Artificial Life and Robotics. 2022. vol. 27. pp. 137–141.
  24. Arora S., Doshi P. A survey of inverse reinforcement learning: Challenges, methods and progress. Artificial Intelligence. 2021. vol. 297. doi: 10.1016/j.artint.2021.103500.
  25. Pinsler R., Maag M., Arenz O., Neumann G. Inverse reinforcement learning of bird flocking behavior. ICRA Swarms Workshop. 2018.
  26. Chen M., Zhang P. Area Coverage for Swarm Robots Via Inverse Reinforcement Learning. 2023. 9 p.
  27. Gharbi I., Kuckling J., Ramos D., Birattari M. Show me what you want: Inverse reinforcement learning to automatically design robot swarms by demonstration. In 2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023. pp. 5063–5070.
  28. Schulman J., Wolski F., Dhariwal P., Radford A., Klimov O. Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347. 2017.

Arquivos suplementares

Arquivos suplementares
Ação
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».