Регуляризация весов в импульсных нейронных сетях
- Авторы: Антонов Д.И.1, Сухов С.В.1
-
Учреждения:
- Ульяновский филиал Института радиотехники и электроники им. В.А. Котельникова РАН
- Выпуск: № 1 (2025)
- Страницы: 16-24
- Раздел: Методы, технологии и приложения искусственного интеллекта
- URL: https://bakhtiniada.ru/2413-0133/article/view/290048
- DOI: https://doi.org/10.25729/ESI.2025.37.1.002
- ID: 290048
Цитировать
Полный текст
Аннотация
Переобучение модели (overfitting) искусственной нейронной сети является нежелательным результатом её обучения. Подобный результат возникает из-за того, что в процессе обучения моделью учитываются как существенные, так и несущественные признаки, шум. Методы регуляризации предназначены для минимизации влияния случайного шума и выявления важных признаков. Существует ряд методов регуляризации для искусственных нейронных сетей 2-го поколения (метод исключения, L1-регуляризация, L2-регуляризация и др.), но они не подходят для 3-го поколения нейронных сетей – импульсных нейронных сетей (ИмНС), обеспечивающих более энергоэффективные и биологически правдоподобные вычисления. Информация в ИмНС передаётся с помощью коротких импульсов (спайков), а обучение происходит локально. Биологическая концепция работы нейронов мозга «используй или потеряешь» (use it or lose it) заключается в том, что если синаптическая связь не используется, то она слабеет и исчезает. Применение к ИмНС данной биологической концепции заключается в придании синаптическим весам сети временной зависимости, уменьшающей величину веса пропорционально времени «молчания» синаптической связи. В настоящей работе предложен новый метод регуляризации весов для ИмНС, основанный на том, что во время обучения сети производится обрезка (pruning) неиспользуемых весов, происходящая за счёт получения весами зависимости от времени, прошедшем с момента последнего импульса. В экспериментах была использована двухслойная ИмНС, обученная согласно комбинированному хеббовскому правилу, ранее разработанному авторами на базе локальных правил обучения STDP (spike-timing-dependent plasticity) и all-LTD (all-long-term-depression rule). Для обучения и тестирования ИмНС применялся набор данных MNIST (изображения рукописных цифр): 15000 изображений для обучения и 1500 изображений для тестирования, в опытах использовались только 3 класса изображений из 10 возможных.
Ключевые слова
Полный текст
Введение. Важным аспектом машинного обучения, связанным с его успешностью, является качественное отделение полезной информации от шума. Процессы извлечения полезных признаков и их дифференциации от шумовых входных данных присутствуют во многих приложениях искусственных нейронных сетей (ИНС).
Желаемым результатом любого вида машинного обучения является не просто запоминание признаков тех данных, на которых модель была обучена, но и приобретение моделью способности обобщать полученные знания для решения новых задач [1]. В процессе обучения ИНС происходят вычисление и минимизация ошибки на обучающем множестве. Однако бездумная минимизация функции потерь может привести к переобучению модели [2]. Переобучение является результатом того, что при обучении учитываются как существенные, так и несущественные признаки, шум. Методы регуляризации призваны минимизировать влияние случайного шума, выявить регулярные признаки в процессе обучения модели и тем самым предотвратить переобучение ИНС.
Следствием применения методов регуляризации может быть различная обработка знакомых, незнакомых данных и шума, что важно для предиктивной обработки информации в ИНС. Незнакомая информация должна распространяться дальше по нейронной сети для обработки, знакомый (ожидаемый) результат не должен приводить к дополнительной обработке, а шум вообще не должен распространяться по сети [3].
Применение методов регуляризации может быть основой для решения важной проблемы защиты искусственных нейронных сетей от различных типов вредоносных атак (adversarial attacks) [4]. Незначительные для человеческого восприятия шумовые изменения изображений могут приводить к ошибкам в их классификации искусственными сетями, что, в свою очередь, влечёт серьезные сбои в работе устройств на основе ИНС.
- Методы регуляризации искусственных нейронных сетей. Для ИНС 2-го поколения решение задач предотвращения переобучения и задач повышения устойчивости нейронных сетей к вредоносным атакам выполняется с помощью различных методов регуляризации. Многие методы регуляризации связаны с минимизацией или обрезанием (прунинг, pruning) избыточных весов [5, 6]. В практике обучения ИНС чаще всего используются три метода: метод исключения (дропаут, dropout), L1- и L2-регуляризация.
В L2-регуляризации, также называемой регрессией Риджа (Ridge regression), используется квадрат весов в качестве дополнительного слагаемого для функции потерь:
, (1)
где λ – параметр регуляризации, E – некоторая функция ошибки, измеряющая разницу между истинным значением Y и прогнозом . L2-регуляризация способствует более сбалансированному распределению весов по признакам и не позволяет им приобретать большие значения.
В случае L1-регуляризации, также называемой регрессией Лассо (Lasso regression), в функцию потерь Floss добавляется регуляризационный член с абсолютными значениями весов:
. (2)
Результатом L2-регуляризации является минимизация весов, а L1-регуляризация делает избыточные веса равными нулю, создавая разреженную модель.
Метод исключения, как и L1-регуляризация, предполагает случайное удаление весов или целых нейронов. Эффект метода исключения заключается в том, что сеть становится менее чувствительной к конкретным весам нейронов.
Все методы регуляризации преследуют своей целью создание более гладкой модели, наилучшим образом обобщающей закономерности данных.
- Импульсные нейронные сети. Импульсные (спайковые) нейронные сети (ИмНС) – это следующее, 3-е поколение нейронных сетей, обещающее более энергоэффективные и биологически правдоподобные вычисления [7]. Нейроны в ИмНС передают информацию с помощью коротких импульсов (спайков), а обучение происходит локально. Отметим, что градиентные методы обучения, широко применяемые для обучения 2-го поколения ИНС, для ИмНС не являются имманентно присущими, хотя есть варианты их адаптации под импульсные сети, но псевдо-градиентные методы, разработанные для ИмНС на основе суррогатов, не био-подобны и ведут к возникновению дополнительных издержек.
Некоторые предыдущие исследования показали, что ИмНС более устойчивы к воздействию шума и более устойчивы к вредоносным атакам [8-10]. Однако в других исследованиях было обнаружено, что ИмНС все еще подвержены воздействию шума [11]. Здесь мы предлагаем метод регуляризации для ИмНС, который значительно снижает нейронную активность, вызываемую шумовым воздействием.
В ИмНС, как правило, используются локальные методы обучения. Так называемая пластичность, зависимая от времени спайка (spike-timing-dependent plasticity, STDP), является наиболее часто используемым правилом обучения в ИмНС. Свойство STDP кластеризовать данные напрямую соответствует потребностям обучения без учителя. Во время такого обучения по правилу STDP синаптические веса изменяются по закону:
(3)
где Δt – временной интервал между возникновением спайка в постсинаптическом и пресинаптическом нейронах, коэффициенты Apre > 0, Apost < 0 и τpre > 0 и τpost > 0 – постоянные времени. Правило STDP приводит к усилению синаптической связи w, если спайк на пресинаптическом нейроне предшествует постсинаптическому Δt > 0, в случае Δt < 0 синаптическая связь уменьшается (рис. 1а). Фактически, синаптическая связь усиливается, если пресинаптический спайк является причиной появления постсинаптического. Механизм STDP обеспечивает чувствительность постсинаптических нейронов к характерным чертам входного сигнала.
Рис. 1. Изменение силы синаптической связи в результате канонического STDP (а) и в результате all-LTD (б)
Обучение с учителем обычно используется для решения задач классификации и регрессии. В работах [12, 13] мы модифицировали STDP так, чтобы метод был применим для обучения с учителем. Система уравнений, похожая на систему уравнений (3), описывает еще одно биологически правдоподобное правило – правило «всевременной депрессии» (all-long-term-depression rule, all-LTD). Изменение синаптической связи в случае all-LTD определяется выражением:
(4)
Согласно правилу all-LTD, если пресинаптический спайк вызывает постсинаптический спайк (Δt > 0), то такое поведение нужно пресечь и уменьшить величину синаптической связи; изменение синаптической связи в случае Δt < 0 остается таким же, как и для STDP (рис. 1б). Описанные свойства all-LTD позволяют использовать это правило для обеспечения нечувствительности нейронов к определённым признакам.
Для обучения с учителем ИмНС в экспериментах нами использовалось комбинированное хеббовское правило «STDP+all-LTD» [13].
Правила обучения STDP и all-LTD не используют глобальную функцию потерь. Таким образом, методы регуляризации (1), (2) и аналогичные им не подходят для ИмНС и избыточные веса не устраняются в процессе обучения. Из систем уравнений (3) и (4) видно, что веса изменяются только в случае активации пресинаптических нейронов, в случае «молчащих» пресинаптических нейронов их исходящие веса остаются такими же, как при инициализации. Эти избыточные веса могут быть впоследствии использованы для распространения в сети шума или ненужной/неблагоприятной информации.
- Метод регуляризации весов в импульсных нейронных сетях. Биологическая концепция «используй или потеряешь» (use it or lose it) [14] заключается в том, что если синаптическая связь в мозге не используется, то она слабеет и исчезает.
Перенесение принципа данной биологической концепции на ИмНС означает, что для обретения подобных свойств веса ИмНС должны получить временную зависимость, уменьшающую величину веса пропорционально времени, прошедшего с момента последнего использования этой связи.
Мы предлагаем метод регуляризации весов для ИмНС, основанный на том, что во время обучения сети производится обрезка неиспользуемых весов, происходящая за счёт получения всеми весами зависимости от времени:
, (5)
где ts – время последнего импульса, τprun – характерное время, в течение которого происходит обрезка весов, kp – коэффициент обрезки.
Для весов, связанных с часто возбуждающимися нейронами, в уравнении (5) значение экспоненциального множителя оказывается близко к единице и затухания веса практически не происходит. Синаптические веса, связанные с нейронами, не испускающими спайки в течении времени, близкого или большего τprun, подвергаются обрезке (прунингу).
- Эксперименты. Чтобы проверить нашу концепцию регуляризации, мы провели серию экспериментов с ИмНС. В экспериментах ИмНС обучалась для решения задачи классификации данных из набора MNIST, содержащего изображения рукописных цифр размером 28 28 пикселей. Целью экспериментов было сравнение выходной активности ИмНС с регуляризацией весов и без нее. В экспериментах применялась модель нейронов «интегрировать-и-сработать» с утечкой (leaky integrate-and-fire model) и с адаптивным порогом для возбуждающих нейронов.
Архитектура использованной в экспериментах двухслойной сети (рис. 2) аналогична описанной в работе [15]. Первый входной слой ИмНС содержит 784 пуассоновских нейрона, второй слой состоит из равного количества возбуждающих и то́рмозных нейронов (по 10 нейронов каждого вида на один класс данных). Каждый нейрон в пуассоновском слое соответствует одному пикселю входных данных (размер слоя соответствует количеству пикселей подаваемого на вход изображения).
Рис. 2. Архитектура SNN: первый слой содержит 784 пуассоновских нейрона, второй слой содержит 30 возбуждающих и 30 то́рмозных нейронов (по 10 нейронов каждого вида на один класс); S1, S2 и S3 ‒ синаптические связи
При поступлении на вход сети очередного изображения каждый пуассоновский нейрон генерирует последовательность импульсов (спайков) со средней частотой, равной интенсивности подаваемого пикселя, осуществляя частотное кодирование информации. Сигнал проходит от пуассоновских нейронов к возбуждающим нейронам второго слоя через синапсы группы S1, соединяющие нейроны по принципу «один ко всем». Через синапсы группы S2 импульсы проходят к то́рмозным нейронам второго слоя, соединяющие нейроны по принципу «один к одному». Далее через синапсы группы S3 импульсы, генерируемые то́рмозными нейронами, возвращаются к возбуждающим нейронам, соединённым с то́рмозными по принципу «один ко всем, кроме инициатора».
Для реализации комбинированного хеббовского правила обучения «STDP+all-LTD», описанного в работе [13], возбуждающие нейроны второго слоя были разделены на равные группы количеством, равным количеству классов данных. Обучение по правилу «STDP+all-LTD» производится следующим образом:
- на вход сети подаются данные определенного класса, вызывающие генерацию импульсов нейронами пуассоновского слоя;
- при прохождении сигнала синапсы группы S1, связанные с группой нейронов, распознающих целевой класс, обучаются по правилу STDP;
- в случае, если сигнал идёт через синапсы группы S1 на возбуждающий нейрон из группы, не связанной с распознаванием целевого класса, то веса таких синапсов изменяются в соответствии с правилом all-LTD.
На этапе тестирования класс данных определяется по наибольшей активности групп нейронов, отнесенных к каждому классу.
В экспериментах мы использовали данные из набора MNIST: 15000 изображений для обучения и 1500 изображений для тестирования. Использовались только 3 класса изображений из 10 возможных. ИмНС была реализована в пакете Brian 2.0 – фреймворке с открытым исходным кодом для моделирования ИмНС. Для выполнения кода применялся компьютер с процессором Intel Core i9 (3,1 ГГц), 32 ГБ оперативной памяти, PyTorch 1.8.0 и Ubuntu 20.0.
Результат обучения с регуляризацией весов и без нее показан на рис. 3, где представлены веса синаптической группы S1, отвечающие за распознавание одного из признаков изображения цифры 7.
Рис. 3. Графическое изображение 784 весов синаптической группы S1, связанных с одним из возбуждающих нейронов: а) в модели без регуляризации; б) те же веса в модели с регуляризацией. Синий цвет соответствует нулевому весу, отличные от 0 веса обозначены различными градациями красного цвета
Синапсы, веса которых показаны, соединяют 784 нейрона пуассоновского слоя с одним из возбуждающих нейронов. На рис. 3а отображены веса в модели без применения метода регуляризации, а на рис. 3б – с применением регуляризации. Эффект регуляризации хорошо виден: на рис. 3а вдоль внешней границы рисунка во множестве расположены веса, связанные с «молчащими» нейронами, но при этом имеющие ненулевое значение (ненулевые веса обозначены градациями красного цвета), на рис. 3б эти же веса уже обрезаны процессом регуляризации (обнулены) и приобрели синюю окраску, соответствующую нулевому значению.
Для изучения влияния регуляризации обученные сети были протестированы на четырех различных наборах данных по 1500 изображений в каждом:
- 28 × 28 пиксельные изображения с дельта-коррелированным шумом со средней интенсивностью, равной средней интенсивности изображений в обучающем наборе данных;
- 28 × 28 изображения с пиксельным шумом, обработанные гауссовым фильтром со стандартным отклонением 2 пикселя (изображения с шумом с конечной длиной корреляции);
- изображения цифр, соответствующих тем же классам, на которых обучалась сеть;
- изображения цифр, отличающихся от классов, на которых обучалась сеть.
Устранение незначительных синаптических весов, не участвующих в распознавании, выражается в снижении общей нейронной активности ИмНС при тестировании на изображениях как «известных» (классы изображений совпадают с теми, которые использовались при обучении), так и «неизвестных» цифр (таблица 1).
Таблица 1. Выходная активность нейронов
№ | Набор для тестирования | Общее количество спайков | |
в модели без регуляризации | в модели с регуляризацией | ||
1 | Дельта-коррелированный шум | 3162 | 1 |
2 | Гауссово размытые изображения | 3265 | 1 |
3 | «Известные» цифры | 416 | 344 |
4 | «Неизвестные» цифры | 346 | 240 |
В модели без регуляризации «неизвестные» данные генерировали на 17% меньше спайков, чем «известные», а в модели с регуляризацией разница в количестве спайков увеличилась до 30 % (строки 3 и 4 в таблице 1).
Также обученная сеть показала значительную разницу в спайковой активности нейронов для шумовых изображений с регуляризацией и без нее. По данным таблицы 1 видно, что ИмНС с регуляризацией практически не реагирует на шумовой сигнал (строки 1 и 2 в таблице 1), что позволяет надеяться на эффективность применения данного метода регуляризации для снижения влияния вредоносных состязательных атак (adversarial attacks) на ИмНС.
Заключение. В настоящей работе представлен новый метод регуляризации весов в ИмНС на основе биологической концепции «используй или потеряешь» (use it or lose it). Использование регуляризации в ИмНС устраняет веса, не участвующие или мало участвующие в процессе распознавания, что позволяет:
- значительно снизить влияние шума на процесс распознавания и тем самым существенно уменьшить риск вредоносных атак на ИмНС;
- снизить нейронную активность в ответ на «неизвестные» данные (в проведённых экспериментах в 1,8 раза), что повышает точность ИмНС и улучшает её способность к обобщению;
- модулировать распространение известной и неизвестной информации, что крайне важно для реализации предиктивных вычислений в ИмНС.
Благодарности. Исследование выполнено при финансовой поддержке Российского научного фонда (проект № 24-21-00470).
Acknowledgements: The reported study was funded by the Russian Science Foundation (project number 24-21-00470).
Об авторах
Дмитрий Иванович Антонов
Ульяновский филиал Института радиотехники и электроники им. В.А. Котельникова РАН
Email: d.antonov@ulireran.ru
ORCID iD: 0000-0003-3113-8320
SPIN-код: 7847-8640
научный сотрудник
Россия, ул. Гончарова, 48/2, Ульяновск, 432071Сергей Владимирович Сухов
Ульяновский филиал Института радиотехники и электроники им. В.А. Котельникова РАН
Автор, ответственный за переписку.
Email: sukhov@ulireran.ru
ORCID iD: 0000-0002-8966-6030
SPIN-код: 6047-8716
кандидат физико-математических наук, старший научный сотрудник
Россия, ул. Гончарова, 48/2, Ульяновск, 432071Список литературы
- Urolagin S., Prema K.V., Reddy N.V.S. Generalization capability of artificial neural network incorporated with pruning method. Advanced computing, networking and security. Lecture notes in computer science, Springer, 2012, vol. 7135, pp. 171-178.
- Montesinos López O.A., Montesinos López A., Crossa J. Overfitting, model tuning, and evaluation of prediction performance. In: Multivariate statistical machine learning methods for genomic prediction. multivariate statistical machine learning methods for genomic prediction, 2022, pp. 109-139, doi: 10.1007/978-3-030-89010-0_4
- N’dri A.W., Barbier T., Teulière C. et al. Predictive coding light: learning compact visual codes by combining excitatory and inhibitory spike timing-dependent plasticity. Proceedings of the IEEE/CVF Conference on computer vision and pattern recognition, 2023, pp. 3997-4006.
- Goodfellow I., Bengio Y., Courville A. Deep Learning. MIT Press, 2016, 800 p.
- Hendrycks D., Mu N., Cubuk E.D. AugMix: A Simple method to improve robustness and uncertainty under Data shift. International conference on learning representations, 2020, pp. 1-15, doi: 10.48550/arXiv.1912.02781.
- Yun S., Han D., Oh S. et al. CutMix: Regularization strategy to train strong classifiers with localizable features. IEEE/CVF International conference on computer vision, 2019, pp. 6022-6031, doi: 10.1109/ICCV.2019.00612.
- Maass W. Networks of spiking neurons: The third generation of neural network models. Neural Networks, 1997, vol. 10, no.9, pp. 1659–1671, doi: 10.1016/S0893-6080(97)00011-7.
- Sharmin S., Panda P., Sarwar S.S. et al. A comprehensive analysis on adversarial robustness of spiking neural networks. 2019 International joint conference on neural networks, Budapest, Hungary, 2019, pp. 1-8.
- Tan Y.X.M., Elovici Y., Binder A. Exploring the back alleys: analysing the robustness of alternative neural network architectures against adversarial attacks. arXiv, 2020, doi: 10.48550/arXiv.1912.03609.
- Marchisio A., Nanfa G., Khalid F. et al. Is spiking secure? A comparative study on the security vulnerabilities of spiking and deep neural networks. 2020 International joint conference on neural networks (IJCNN), 2020, pp. 1-8, doi: 10.1109/IJCNN48605.2020.9207297.
- Leontev M., Antonov D., Sukhov S. Robustness of spiking neural networks against adversarial attacks. 2021 International conference on information technology and nanotechnology, 2021, pp. 1-6, doi: 10.1109/ITNT52450.2021.9649179.
- Antonov D., Batuev B., Sukhov S. Spiking neural networks training with combined Hebbian rules. X International conference on information technology and nanotechnology (ITNT), Samara, Russian Federation, 2024, pp. 1-5, doi: 10.1109/ITNT60778.2024.10582358.
- Антонов Д.И. Обучение импульсных нейронных сетей-классификаторов с помощью локальных правил / Д.И. Антонов, С.В. Сухов // XXV Международная научно-техническая конференция «Нейроинформатика-2023», Сборник научных трудов, 2023. – С. 116-125.
- Shors T.J., Anderson M.L., Curlik Ii D.M. et al. Use it or lose it: how neurogenesis keeps the brain fit for learning. Behavioural brain research, 2012, vol. 227, no. 2, pp. 450-458, doi: 10.1016/j.bbr.2011.04.023.
- Diehl P., Cook M. Unsupervised learning of digit recognition using spike-timing-dependent plasticity. Frontiers in computational neuroscience, 2015, vol. 9, pp. 1-9, doi: 10.5167/uzh-107763.
Дополнительные файлы
