Methods of Intrinsic Motivation in Model-based Reinforcement Learning Problems

Artem K. Latyshev; Латышев Артем Константинович; Aleksandr I. Panov; Панов Александр Игоревич

doi:10.14357/20718594230309

Методы внутренней мотивации в задачах обучения с подкреплением на основе модели

Авторы: Латышев А.К.¹, Панов А.И.²^,3
Учреждения:
1. Московский физико-технический институт (национальный исследовательский университет)
2. Федеральный исследовательский центр «Информатика и управление»» РАН
3. Институт искусственного интеллекта AIRI
Выпуск: № 3 (2023)
Страницы: 84-97
Раздел: Машинное обучение, нейронные сети
URL: https://bakhtiniada.ru/2071-8594/article/view/270351
DOI: https://doi.org/10.14357/20718594230309
ID: 270351

Цитировать

Аннотация

Обучение с подкреплением предлагает широкий спектр методов решения задач управления поведением интеллектуальных агентов. Однако актуальной остается проблема обучения агента в условиях редкого получения сигнала вознаграждения. Возможным решением является использование методов внутренней мотивации – идеи, пришедшей из психологии развития, объясняющей поведение человека в отсутствии внешних управляющих стимулов. В статье рассмотрены существующие методы определения внутренней мотивации, опирающиеся на обучаемую модель мира. Предложена систематизация методов, состоящая из трех классов, которые различаются по способу приложения модели к компонентам агента: вознаграждению, исследовательской стратегии и внутренним целям. Представлен единая схема описания архитектуры агента, использующего модель среды и внутреннюю мотивацию для ускорения обучения. Проанализированы перспективы развития новых методов в данном направлении.

Ключевые слова

внутренняя мотивация, обучение с подкреплением, модель мира, исследование среды

Полный текст

Об авторах

Артем Константинович Латышев

Московский физико-технический институт (национальный исследовательский университет)

Email: latyshev.ak@phystech.edu

Аспирант. Инженер

Россия, Долгопрудный, Московская область

Александр Игоревич Панов

Федеральный исследовательский центр «Информатика и управление»» РАН; Институт искусственного интеллекта AIRI

Автор, ответственный за переписку.
Email: pan@isa.ru

Кандидат физико-математических наук, доцент. Ведущий научный сотрудник; Ведущий научный сотрудник

Россия, Москва; Москва

Список литературы

Mnih V. et al. Human-level control through deep reinforcement learning // Nature. 2015. V. 518. No 7540. P. 529-533.
Skrynnik A. et al. Forgetful experience replay in hierarchical reinforcement learning from expert demonstrations // Knowledge-Based Systems. 2021. V. 218. P. 106844.
Skrynnik A. et al. Hierarchical Deep Q-Network from imperfect demonstrations in Minecraft // Cognitive Systems Research. 2021. V. 65. P. 74–78.
Silver D. et al. Mastering the game of go without human knowledge // Nature. 2017. V. 550. No 7676. P. 354-359.
Schulman J. et al. Proximal policy optimization algorithms. arXiv 2017, arXiv:1707.06347. Available online: https://arxiv.org/abs/1707.06347 (accessed 26.12.2022).
Staroverov A., Panov A. Hierarchical Landmark Policy Optimization for Visual Indoor Navigation // IEEE Access. 2022. V. 10. P. 70447–70455.
Moerland T. M., Broekens J., Jonker C. M. Model-based reinforcement learning: A survey. arXiv 2020, arXiv:2006.16712. Available online: https://arxiv.org/abs/2006.16712 (accessed 26.12.2022).
Zholus A., Ivchenkov Y., Panov A.I. Addressing Task Prioritization in Model-based Reinforcement Learning // Advances in Neural Computation, Machine Learning, and Cognitive Research VI. NEUROINFORMATICS 2022. Studies in Computational Intelligence. Ed. by Kryzhanovsky B. et al. Springer, Cham. 2023. V. 1064. P. 19–30.
Ryan R. M., Deci E. L. Intrinsic and extrinsic motivations: Classic definitions and new directions // Contemporary educational psychology. 2000. V. 25. No 1. P. 54-67.
Oudeyer P. Y., Kaplan F. What is intrinsic motivation? A typology of computational approaches // Frontiers in Neurorobotics. 2007. V. 1.
Intrinsically motivated learning in natural and artificial systems. Ed. by G. Baldassarre, M. Mirolli. Berlin: Springer. 2013.
Aubret A., Matignon L., Hassas S. A survey on intrinsic motivation in reinforcement learning. arXiv 2019, arXiv:1908.06976. Available online: https://arxiv.org/abs/1908.06976 (accessed 26.12.2022).
Aubret A., Matignon L., Hassas S. An information-theoretic perspective on intrinsic motivation in reinforcement learning: a survey. arXiv 2022, arXiv:2209.08890. Available online: https://arxiv.org/abs/2209.08890 (accessed 26.12.2022).
Ugadiarov L., Skrynnik A., Panov A.I. Long-Term Exploration in Persistent MDPs // Advances in Soft Computing. MICAI 2021. Part I. Lecture Notes in Computer Science. Ed. by Batyrshin I., Gelbukh A., Sidorov G. Springer. 2021. V. 13067. P. 108–120.
Pathak D. et al. Curiosity-driven exploration by self-supervised prediction. International conference on machine
learning // Proceedings of the 34th International Conference on Machine Learning, PMLR. 2017. V. 70. P. 2778-2787.
Hafez M. B. et al. Deep intrinsically motivated continuous actor-critic for efficient robotic visuomotor skill learning // Paladyn, Journal of Behavioral Robotics. 2019. V. 10. No 1. P. 14-29.
Mendonca R. et al. Discovering and achieving goals via world models // Advances in Neural Information Processing Systems. 2021. V. 34. P. 24379-24391.
Pathak D., Gandhi D., Gupta A. Self-supervised exploration via disagreement // Proceedings of the 36th International Conference on Machine Learning, PMLR. 2019. V. 97. P. 5062-5071.
Shyam P., Jaśkowski W., Gomez F. Model-based active exploration // Proceedings of the 36th International Conference on Machine Learning, PMLR. 2019. V. 97. P. 5779-5788.
Barto A. G., Simsek O. Intrinsic motivation for reinforcement learning systems // Proceedings of the Thirteenth Yale Workshop on Adaptive and Learning Systems, Yale University Press. 2005. P.113-118.
Groth O. et al. Is curiosity all you need? On the utility of emergent behaviours from curious exploration. arXiv 2021, arXiv:2109.08603. Available online: https://arxiv.org/abs/2109.08603 (accessed 26.12.2022).
Kim H. et al. Emi: Exploration with mutual information. arXiv 2018, arXiv:1810.01176. Available online: https://arxiv.org/abs/1810.01176 (accessed 26.12.2022).
Sekar R. et al. Planning to explore via self-supervised world models // Proceedings of the 37th International Conference on Machine Learning, PMLR. 2020. V. 119. P. 8583-8592.
Yao Y. et al. Sample Efficient Reinforcement Learning via Model-Ensemble Exploration and Exploitation // 2021 IEEE International Conference on Robotics and Automation (ICRA). 2021. P. 4202-4208.
Kim K. et al. Active world model learning with progress curiosity // Proceedings of the 37th International Conference on Machine Learning, PMLR. 2020. V. 119. P. 5306-5315.
Houthooft R. et al. Vime: Variational information maximizing exploration // Advances in neural information processing systems. 2016. V. 29.
Volpi N. C., Polani D. Goal-directed Empowerment: combining Intrinsic Motivation and Task-oriented Behaviour // IEEE Transactions on Cognitive and Developmental Systems. 2020.
Mezghani L. et al. Walk the random walk: Learning to discover and reach goals without supervision. arXiv 2022, arXiv:2206.11733. Available online: https://arxiv.org/abs/2206.11733 (accessed 26.12.2022).
Savinov N. et al. Episodic curiosity through reachability. arXiv 2018, arXiv:1810.02274. Available online: https://arxiv.org/abs/1810.02274 (accessed 26.12.2022).
Sancaktar C., Blaes S., Martius G. Curious Exploration via Structured World Models Yields Zero-Shot Object Manipulation. arXiv 2022, arXiv:2206.11403. Available online: https://arxiv.org/abs/2206.11403 (accessed 26.12.2022).
Hafner D. et al. Deep Hierarchical Planning from Pixels. arXiv 2022, arXiv:2206.04114. Available online: https://arxiv.org/abs/2206.04114 (accessed 26.12.2022).
Nair A. et al. Contextual imagined goals for self-supervised robotic learning // Proceedings of the Conference on Robot Learning, PMLR. 2020. V. 100. P. 530-539.
Zadaianchuk A., Seitzer M., Martius G. Self-supervised visual reinforcement learning with object-centric representations. arXiv 2020, arXiv:2011.14381. Available online: https://arxiv.org/abs/2011.14381 (accessed 26.12.2022).
Zadaianchuk A., Martius G., Yang F. Self-supervised Re-inforcement Learning with Independently Controllable Subgoals // Proceedings of the 5th Conference on Robot Learning, PMLR. 2022. V. 164. P. 384-394.
Klyubin A. S., Polani D., Nehaniv C. L. All else being equal be empowered // Advances in Artificial Life. ECAL. Ed. By M.S. Capcarrère, A.A. Freitas, P.J. Bentley, C.G. Johnson, J. Timmis. Lecture Notes in Computer Science, 3630. Berlin: Springer-Heidelberg, 2005. P. 744-753.
Burda Y. et al. Exploration by random network distillation. arXiv 2018, arXiv:1810.12894. Available online: https://arxiv.org/abs/1810.12894 (accessed 26.12.2022).
Панов А. И. Целеполагание и синтез плана поведения когнитивным агентом // Искусственный интеллект и принятие решений. 2018. № 2. С. 21–35.
Bellemare M. G. et al. The arcade learning environment: An evaluation platform for general agents // Journal of Artificial Intelligence Research. 2013. V. 47. P. 253-279.
Forestier S. et al. Intrinsically motivated goal exploration processes with automatic curriculum learning // Journal of Machine Learning Research. 2022. V. 23. P. 1-41.
Colas C. et al. Vygotskian Autotelic Artificial Intelligence: Language and Culture Internalization for Human-Like AI. arXiv 2022, arXiv:2206.01134. Available online: https://arxiv.org/abs/2206.01134 (accessed 26.12.2022).

Дополнительные файлы

Доп. файлы

Действие

1. JATS XML

Скачать

2. Рис. 1. Возможные способы связи состояний и действий в модели. Sn – контекст из n состояний; Z – латентное пространство представлений; Mk – ансамбль из k отдельных моделей; Ah – последовательность из h действий; , – состояние и представление, в котором окажется агент через h шагов от начального

Скачать (52KB)

Метаданные

3. Рис. 2. Уровни внутренне мотивированного агента. На каждом из уровней методы внутренней мотивации предлагают свой аналог: стратегии, вознаграждения или цели

Скачать (67KB)

Метаданные

4. Рис. 3. Сбор данных для обучения. Целевая и исследовательские стратегии набирают данные для обучения из модели мира и среды в память Dg, Dε, DM

Скачать (24KB)

Метаданные

5. Рис. 4. Методы внутренней мотивации явным образом модифицируют вознаграждение агента (слева) и реализуют исследовательскую стратегию, явно корректируя стратегию агента (справа)

Скачать (154KB)

Метаданные

6. Рис. 5. Модель мира явно определяет цели, исходя из морфологии среды, и неявно через определение исследовательской стратегии, состояния, достигнутые которой, становятся целями

Скачать (70KB)

Метаданные

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация