Обучение с подкреплением импульсной нейронной сети с использованием следовых переменных для синаптических весов с мемристивной пластичностью

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

Импульсные нейронные сети, пригодные для аппаратной реализации на основе мемристоров, весьма перспективны для робототехники в силу своей энергоэффективности. Однако алгоритмы обучения с подкреплением с применением таких сетей остаются малоизученными. Одной из ключевых мотиваций применения мемристоров в качестве весов сети является, помимо энергоэффективности, способность их обучения (изменения проводимости) в режиме реального времени за счет наложения импульсов напряжения от пре- и постсинаптических сигналов. В статье представлены результаты численного моделирования импульсной нейронной сети (ИНС) с мемристивными синаптическими связями, приблизительно решающей задачу оптимального управления с использованием следовых переменных для изменений весов, позволяющих приблизиться к обучению с подкреплением в истинном масштабе времени. Показана принципиальная возможность такого обучения в задаче с удержанием шеста на подвижной платформе, приведено сравнение различных функций наград, сделаны предположения о способах повышения эффективности этого подхода.

Об авторах

В. А. Кулагин

Национальный исследовательский центр “Курчатовский институт”

Email: Kulagin.v.a@outlook.com
Москва, Россия

А. Н. Мацукатова

Национальный исследовательский центр “Курчатовский институт”; Московский государственный университет им. М.В. Ломоносова

Email: Kulagin.v.a@outlook.com
Москва, Россия; Москва, Россия

В. В. Рыльков

Национальный исследовательский центр “Курчатовский институт”

Email: Kulagin.v.a@outlook.com
Москва, Россия

В. А. Демин

Национальный исследовательский центр “Курчатовский институт”

Автор, ответственный за переписку.
Email: Kulagin.v.a@outlook.com
Москва, Россия

Список литературы

  1. Black K., Brown N., Driess D., et al. π0: A Vision-Language-Action Flow Model for General Robot Control. Physical Intelligence, San Francisco, California. 2024. https://www.physicalintelligence.company/download/pi0.pdf
  2. Kalashnikov D., Varley J., Chebotar Y., et al. Mt-opt: Continuous multi-task robotic reinforcement learning at scale, arXiv preprint arXiv:2104.08212. 2021.
  3. Khimya Khetarpal, Matthew Riemer, Irina Rish, and Doina Precup. Towards continual reinforcement learning: A review and perspectives. arXiv preprint arXiv:2012.13490. 2020
  4. Ielmini D., & Menzel S. Universal switching behavior. In Resistive switching- from fundamentals of nanoionic redox processes to memristive device applications. Weinheim: Wiley-VCH. 2016. P. 317.
  5. Pershin Y.V., & Di Ventra M. Experimental demonstration of associative memory with memristive neural networks. Neural Networks, 2010. V. 23. № 7. 881–886. http://dx.doi.org/10.1016/j.neunet.2010.05.001
  6. Zhu J., Zhang T., Yang Y., & Huang R. A comprehensive review on emerging artificial neuromorphic devices. Applied Physics Reviews, 2020. V. 7. № 1. Article 011312. http://dx.doi.org/10.1063/1.5118217
  7. Berggren K., Xia Q., Likharev K.K., Strukov D.B., Jiang H., Mikolajick T., et al. Roadmap on emerging hardware and technology for machine learning. Nanotechnology, 2020. V. 32. № 1. Article 012002. http://dx.doi.org/10.1088/ 1361-6528/aba70f
  8. Mnih V. et al. Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602. 2013.
  9. Kharlanov O.G., Shvetsov B.S., Rylkov V.V., Minne- khanov A.A. Sta bility of quantized conductance levels in memristors with copper filaments: Toward understanding the mechanisms of resistive switching. Physical Review Applied, 2022. V. 17. Article 054035. http://dx.doi.org/10.1103/PhysRevApplied. 17.054035
  10. Minnekhanov A.A., Shvetsov B.S., Martyshov M.M. et al. On the resistive switching mechanism of parylene-based memristive devices. Organic Electronics, 2019. V. 74. P. 89–95.
  11. http: //dx.doi.org/10.1016/j.orgel.2019.06.052
  12. Matsukatova A.N., Emelyanov A.V., Kulagin V.A. et al. Nanocomposite parylene-C memristors with embedded Ag nanoparticles for biomedical data process ing. Organic Electronics, 2022. V. 102. Article 106455. http://dx.doi.org/10.1016/j.orgel. 2022.106455
  13. Minnekhanov A.A., Emelyanov A.V., Lapkin D.A. et al. Parylene based memristive devices with mul tilevel resistive switching for neuromorphic applications. Scientific Reports, 2019. V. 9. № 1. P. 10800. http://dx.doi.org/10.1038/s41598-019-47263-9
  14. Kvatinsky S., et al. VTEAM – A General Model for Voltage Controlled Memristors // IEEE Transactions On Circuits And Systems – Ii: Express Briefs, 2015. Vol. 62. No. 8.
  15. Emelyanov A.V., Lapkin D.A., Demin V.A. et al. First steps towards the realization of a double layer perceptron based on organic memristive devices. AIP Advances, 2016. V. 6. № 11. Article 111301. http://dx.doi.org/10.1063/1.4966257
  16. Sboev A., Serenko A., Rybka R., Vlasov D. Solving a classification task by spiking neural network with STDP based on rate and temporal input encoding. Mathematical Methods in the Applied Sciences, 2020. V. 43. № 13. P. 7802–7814. http://dx.doi.org/10.1002/mma.6241
  17. Gütig R., Sompolinsky H. The tempotron: a neuron that learns spike timing–based decisions. Nature Neuroscience, 2006. V. 9. № 3. P. 420–428.
  18. Wang X., Hou Z.-G., Lv F., Tan M., Wang Y. Mobile robots’ modular navigation controller using spiking neural networks. Neurocomputing, 2014. V. 134. P. 230–238. http://dx.doi.org/10.1016/J.NEUCOM.2013.07.055
  19. Yu Q., Tang H., Tan K.C., Yu H. A brain-inspired spiking neural network model with temporal encoding and learning. Neurocomputing, 2014. V. 138. P. 3–13. http://dx.doi.org/10.1016/j.neucom.2013.06.052
  20. Vlasov D., Minnekhanov A., Rybka R., et al. Memristor-based spiking neural network with online reinforcement learning, Neural Networks, 2023. V. 166. https://doi.org/10.1016/j.neunet.2023.07.031
  21. Hazan H., Saunders D.J., Khan H., Patel D. BindsNET: A Machine Learning-Oriented Spiking Neural Networks Library in Python // Front. Neuroinform. 2018. V. 12. P. 89.
  22. Sboe A., Serenko A., Rybka R., Vlasov D. Solving a classification task by spiking neural network with STDP based on rate and temporal input encoding. Mathematical Methods in the Applied Sciences, 2020. V. 43. № 13. P. 7802–7814. http://dx.doi.org/10.1002/mma.6241
  23. Sboev A., Vlasov D., Rybka R., Davydov Y., Serenko A., Demin V. Modeling the dynamics of spiking networks with memristor-based STDP to solve classification tasks. Mathematics, 2021. V. 9. № 24. P. 3237:1–10. http://dx.doi.org/10. 3390/math9243237,
  24. URL https://www.mdpi.com/2227-7390/9/24/3237
  25. Richard S., Sutton and Andrew G. Barto. Reinforcement Learning. 2nd Ed. The MIT Press. ISBN: 978-0-262-19398-6. 2018, p. 329.
  26. Mnih V., et al. Asynchronous methods for deep reinforcement learning //International conference on machine learning. PmLR. 2016. P. 1928–1937.
  27. Frémaux N, Sprekeler H, Gerstner W.Re inforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons. PLoS Comput Biol. 2013. V. 9. № 4. P. e1003024. https://doi.org/10.1371/journal.pcbi.1003024

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Российская академия наук, 2025

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».