Weight regularization in spiking neural networks

Dmitry I. Antonov; Антонов Дмитрий Иванович; Sergey V. Sukhov; Сухов Сергей Владимирович

doi:10.25729/ESI.2025.37.1.002

Weight regularization in spiking neural networks

Авторлар: Antonov D.I.¹, Sukhov S.V.¹
Мекемелер:
1. Ulyanovsk Branch of the Kotelnikov Institute of Radioengineering and Electronics of the RAS
Шығарылым: № 1 (2025)
Беттер: 16-24
Бөлім: Methods, technologies and applications of artificial intelligence
URL: https://bakhtiniada.ru/2413-0133/article/view/290048
DOI: https://doi.org/10.25729/ESI.2025.37.1.002
ID: 290048

Дәйексөз келтіру

Толық мәтін

Аннотация
Толық мәтін
Авторлар туралы
Әдебиет тізімі
Қосымша файлдар
Статистика

Аннотация

Overfitting an artificial neural network model is the result of training taking into account both essential and insignificant features, noise. Regularization methods are intended to minimize the influence of random noise and to identify regular features. There are a number of regularization methods for 2nd generation artificial neural networks (dropout, L1-regularization, L2-regularization, etc.). But these conventional regularization methods are not suitable for the 3rd generation of neural networks, spiking neural networks (SNN), which provide more energy-efficient and biologically plausible computations. Information in SNN is transmitted using short pulses (spikes), and training occurs locally. The biological concept of brain neurons "use it or lose it" is that if a synaptic connection is not used, it weakens and disappears. The application of the biological concept to the SNN consists in imparting a temporal dependence to the synaptic weights of the network, which reduces the weight value proportionally to the "silence" time of the synaptic connection. In this paper, a new method of weight regularization for SNN is proposed, based on the pruning of unused weights during the network training, which occurs due to the weights receiving a dependence on the time elapsed since the spike. In the experiments, a two-layer SNN was used, trained according to a combined Hebbian rule, previously developed by the authors on the basis of local learning rules STDP (spike-timing-dependent plasticity) and all-LTD (all-long-term-depression rule). For training and testing SNN, the MNIST dataset (images of handwritten digits) was used: 15,000 images for training and 1,500 images for testing, only 3 classes of images out of 10 possible were used in the experiments.

Негізгі сөздер

spiking neural network, overfitting, regularization method

Толық мәтін

Введение. Важным аспектом машинного обучения, связанным с его успешностью, является качественное отделение полезной информации от шума. Процессы извлечения полезных признаков и их дифференциации от шумовых входных данных присутствуют во многих приложениях искусственных нейронных сетей (ИНС).

Желаемым результатом любого вида машинного обучения является не просто запоминание признаков тех данных, на которых модель была обучена, но и приобретение моделью способности обобщать полученные знания для решения новых задач [1]. В процессе обучения ИНС происходят вычисление и минимизация ошибки на обучающем множестве. Однако бездумная минимизация функции потерь может привести к переобучению модели [2]. Переобучение является результатом того, что при обучении учитываются как существенные, так и несущественные признаки, шум. Методы регуляризации призваны минимизировать влияние случайного шума, выявить регулярные признаки в процессе обучения модели и тем самым предотвратить переобучение ИНС.

Следствием применения методов регуляризации может быть различная обработка знакомых, незнакомых данных и шума, что важно для предиктивной обработки информации в ИНС. Незнакомая информация должна распространяться дальше по нейронной сети для обработки, знакомый (ожидаемый) результат не должен приводить к дополнительной обработке, а шум вообще не должен распространяться по сети [3].

Применение методов регуляризации может быть основой для решения важной проблемы защиты искусственных нейронных сетей от различных типов вредоносных атак (adversarial attacks) [4]. Незначительные для человеческого восприятия шумовые изменения изображений могут приводить к ошибкам в их классификации искусственными сетями, что, в свою очередь, влечёт серьезные сбои в работе устройств на основе ИНС.

Методы регуляризации искусственных нейронных сетей. Для ИНС 2-го поколения решение задач предотвращения переобучения и задач повышения устойчивости нейронных сетей к вредоносным атакам выполняется с помощью различных методов регуляризации. Многие методы регуляризации связаны с минимизацией или обрезанием (прунинг, pruning) избыточных весов [5, 6]. В практике обучения ИНС чаще всего используются три метода: метод исключения (дропаут, dropout), L1- и L2-регуляризация.

В L2-регуляризации, также называемой регрессией Риджа (Ridge regression), используется квадрат весов в качестве дополнительного слагаемого для функции потерь:

$F_{l o s s} = E (Y - \hat{Y}) + λ \sum_{i = 0}^{n} w_{i}^{2}$ , (1)

где λ – параметр регуляризации, E – некоторая функция ошибки, измеряющая разницу между истинным значением Y и прогнозом $\hat{Y}$ . L2-регуляризация способствует более сбалансированному распределению весов по признакам и не позволяет им приобретать большие значения.

В случае L1-регуляризации, также называемой регрессией Лассо (Lasso regression), в функцию потерь F_loss добавляется регуляризационный член с абсолютными значениями весов:

$F_{l o s s} = E (Y - \hat{Y}) + λ \sum_{i = 0}^{n} |w_{i}|$ . (2)

Результатом L2-регуляризации является минимизация весов, а L1-регуляризация делает избыточные веса равными нулю, создавая разреженную модель.

Метод исключения, как и L1-регуляризация, предполагает случайное удаление весов или целых нейронов. Эффект метода исключения заключается в том, что сеть становится менее чувствительной к конкретным весам нейронов.

Все методы регуляризации преследуют своей целью создание более гладкой модели, наилучшим образом обобщающей закономерности данных.

Импульсные нейронные сети. Импульсные (спайковые) нейронные сети (ИмНС) – это следующее, 3-е поколение нейронных сетей, обещающее более энергоэффективные и биологически правдоподобные вычисления [7]. Нейроны в ИмНС передают информацию с помощью коротких импульсов (спайков), а обучение происходит локально. Отметим, что градиентные методы обучения, широко применяемые для обучения 2-го поколения ИНС, для ИмНС не являются имманентно присущими, хотя есть варианты их адаптации под импульсные сети, но псевдо-градиентные методы, разработанные для ИмНС на основе суррогатов, не био-подобны и ведут к возникновению дополнительных издержек.

Некоторые предыдущие исследования показали, что ИмНС более устойчивы к воздействию шума и более устойчивы к вредоносным атакам [8-10]. Однако в других исследованиях было обнаружено, что ИмНС все еще подвержены воздействию шума [11]. Здесь мы предлагаем метод регуляризации для ИмНС, который значительно снижает нейронную активность, вызываемую шумовым воздействием.

В ИмНС, как правило, используются локальные методы обучения. Так называемая пластичность, зависимая от времени спайка (spike-timing-dependent plasticity, STDP), является наиболее часто используемым правилом обучения в ИмНС. Свойство STDP кластеризовать данные напрямую соответствует потребностям обучения без учителя. Во время такого обучения по правилу STDP синаптические веса изменяются по закону:

$Δ w (Δ t) = \{\begin{cases} A_{p r e} \cdot \exp (- Δ t / τ_{p r e}), & Δ t > 0 \\ A_{p o s t} \cdot \exp (Δ t / τ_{p o s t}), & Δ t < 0 \end{cases}$ (3)

где Δt – временной интервал между возникновением спайка в постсинаптическом и пресинаптическом нейронах, коэффициенты A_pre > 0, A_post < 0 и τ_pre > 0 и τ_post > 0 – постоянные времени. Правило STDP приводит к усилению синаптической связи w, если спайк на пресинаптическом нейроне предшествует постсинаптическому Δt > 0, в случае Δt < 0 синаптическая связь уменьшается (рис. 1а). Фактически, синаптическая связь усиливается, если пресинаптический спайк является причиной появления постсинаптического. Механизм STDP обеспечивает чувствительность постсинаптических нейронов к характерным чертам входного сигнала.

Рис. 1. Изменение силы синаптической связи в результате канонического STDP (а) и в результате all-LTD (б)

Обучение с учителем обычно используется для решения задач классификации и регрессии. В работах [12, 13] мы модифицировали STDP так, чтобы метод был применим для обучения с учителем. Система уравнений, похожая на систему уравнений (3), описывает еще одно биологически правдоподобное правило – правило «всевременной депрессии» (all-long-term-depression rule, all-LTD). Изменение синаптической связи в случае all-LTD определяется выражением:

$Δ w (Δ t) = \{\begin{cases} - A_{p r e} \cdot \exp (- Δ t / τ_{p r e}), & Δ t > 0 \\ A_{p o s t} \cdot \exp (Δ t / τ_{p o s t}), & Δ t < 0 \end{cases}$ (4)

Согласно правилу all-LTD, если пресинаптический спайк вызывает постсинаптический спайк (Δt > 0), то такое поведение нужно пресечь и уменьшить величину синаптической связи; изменение синаптической связи в случае Δt < 0 остается таким же, как и для STDP (рис. 1б). Описанные свойства all-LTD позволяют использовать это правило для обеспечения нечувствительности нейронов к определённым признакам.

Для обучения с учителем ИмНС в экспериментах нами использовалось комбинированное хеббовское правило «STDP+all-LTD» [13].

Правила обучения STDP и all-LTD не используют глобальную функцию потерь. Таким образом, методы регуляризации (1), (2) и аналогичные им не подходят для ИмНС и избыточные веса не устраняются в процессе обучения. Из систем уравнений (3) и (4) видно, что веса изменяются только в случае активации пресинаптических нейронов, в случае «молчащих» пресинаптических нейронов их исходящие веса остаются такими же, как при инициализации. Эти избыточные веса могут быть впоследствии использованы для распространения в сети шума или ненужной/неблагоприятной информации.

Метод регуляризации весов в импульсных нейронных сетях. Биологическая концепция «используй или потеряешь» (use it or lose it) [14] заключается в том, что если синаптическая связь в мозге не используется, то она слабеет и исчезает.

Перенесение принципа данной биологической концепции на ИмНС означает, что для обретения подобных свойств веса ИмНС должны получить временную зависимость, уменьшающую величину веса пропорционально времени, прошедшего с момента последнего использования этой связи.

Мы предлагаем метод регуляризации весов для ИмНС, основанный на том, что во время обучения сети производится обрезка неиспользуемых весов, происходящая за счёт получения всеми весами зависимости от времени:

$w (t) = w (t_{s}) \exp (- k_{p} {(\frac{t - t_{s}}{τ_{p r u n}})}^{2})$ , (5)

где t_s – время последнего импульса, τ_prun – характерное время, в течение которого происходит обрезка весов, k_p – коэффициент обрезки.

Для весов, связанных с часто возбуждающимися нейронами, в уравнении (5) значение экспоненциального множителя оказывается близко к единице и затухания веса практически не происходит. Синаптические веса, связанные с нейронами, не испускающими спайки в течении времени, близкого или большего τ_prun, подвергаются обрезке (прунингу).

Эксперименты. Чтобы проверить нашу концепцию регуляризации, мы провели серию экспериментов с ИмНС. В экспериментах ИмНС обучалась для решения задачи классификации данных из набора MNIST, содержащего изображения рукописных цифр размером 28 28 пикселей. Целью экспериментов было сравнение выходной активности ИмНС с регуляризацией весов и без нее. В экспериментах применялась модель нейронов «интегрировать-и-сработать» с утечкой (leaky integrate-and-fire model) и с адаптивным порогом для возбуждающих нейронов.

Архитектура использованной в экспериментах двухслойной сети (рис. 2) аналогична описанной в работе [15]. Первый входной слой ИмНС содержит 784 пуассоновских нейрона, второй слой состоит из равного количества возбуждающих и то́рмозных нейронов (по 10 нейронов каждого вида на один класс данных). Каждый нейрон в пуассоновском слое соответствует одному пикселю входных данных (размер слоя соответствует количеству пикселей подаваемого на вход изображения).

Рис. 2. Архитектура SNN: первый слой содержит 784 пуассоновских нейрона, второй слой содержит 30 возбуждающих и 30 то́рмозных нейронов (по 10 нейронов каждого вида на один класс); S₁, S₂ и S₃ ‒ синаптические связи

При поступлении на вход сети очередного изображения каждый пуассоновский нейрон генерирует последовательность импульсов (спайков) со средней частотой, равной интенсивности подаваемого пикселя, осуществляя частотное кодирование информации. Сигнал проходит от пуассоновских нейронов к возбуждающим нейронам второго слоя через синапсы группы S₁, соединяющие нейроны по принципу «один ко всем». Через синапсы группы S₂ импульсы проходят к то́рмозным нейронам второго слоя, соединяющие нейроны по принципу «один к одному». Далее через синапсы группы S₃ импульсы, генерируемые то́рмозными нейронами, возвращаются к возбуждающим нейронам, соединённым с то́рмозными по принципу «один ко всем, кроме инициатора».

Для реализации комбинированного хеббовского правила обучения «STDP+all-LTD», описанного в работе [13], возбуждающие нейроны второго слоя были разделены на равные группы количеством, равным количеству классов данных. Обучение по правилу «STDP+all-LTD» производится следующим образом:

на вход сети подаются данные определенного класса, вызывающие генерацию импульсов нейронами пуассоновского слоя;
при прохождении сигнала синапсы группы S1, связанные с группой нейронов, распознающих целевой класс, обучаются по правилу STDP;
в случае, если сигнал идёт через синапсы группы S1 на возбуждающий нейрон из группы, не связанной с распознаванием целевого класса, то веса таких синапсов изменяются в соответствии с правилом all-LTD.

На этапе тестирования класс данных определяется по наибольшей активности групп нейронов, отнесенных к каждому классу.

В экспериментах мы использовали данные из набора MNIST: 15000 изображений для обучения и 1500 изображений для тестирования. Использовались только 3 класса изображений из 10 возможных. ИмНС была реализована в пакете Brian 2.0 – фреймворке с открытым исходным кодом для моделирования ИмНС. Для выполнения кода применялся компьютер с процессором Intel Core i9 (3,1 ГГц), 32 ГБ оперативной памяти, PyTorch 1.8.0 и Ubuntu 20.0.

Результат обучения с регуляризацией весов и без нее показан на рис. 3, где представлены веса синаптической группы S₁, отвечающие за распознавание одного из признаков изображения цифры 7.

Рис. 3. Графическое изображение 784 весов синаптической группы S₁, связанных с одним из возбуждающих нейронов: а) в модели без регуляризации; б) те же веса в модели с регуляризацией. Синий цвет соответствует нулевому весу, отличные от 0 веса обозначены различными градациями красного цвета

Синапсы, веса которых показаны, соединяют 784 нейрона пуассоновского слоя с одним из возбуждающих нейронов. На рис. 3а отображены веса в модели без применения метода регуляризации, а на рис. 3б – с применением регуляризации. Эффект регуляризации хорошо виден: на рис. 3а вдоль внешней границы рисунка во множестве расположены веса, связанные с «молчащими» нейронами, но при этом имеющие ненулевое значение (ненулевые веса обозначены градациями красного цвета), на рис. 3б эти же веса уже обрезаны процессом регуляризации (обнулены) и приобрели синюю окраску, соответствующую нулевому значению.

Для изучения влияния регуляризации обученные сети были протестированы на четырех различных наборах данных по 1500 изображений в каждом:

28 × 28 пиксельные изображения с дельта-коррелированным шумом со средней интенсивностью, равной средней интенсивности изображений в обучающем наборе данных;
28 × 28 изображения с пиксельным шумом, обработанные гауссовым фильтром со стандартным отклонением 2 пикселя (изображения с шумом с конечной длиной корреляции);
изображения цифр, соответствующих тем же классам, на которых обучалась сеть;
изображения цифр, отличающихся от классов, на которых обучалась сеть.

Устранение незначительных синаптических весов, не участвующих в распознавании, выражается в снижении общей нейронной активности ИмНС при тестировании на изображениях как «известных» (классы изображений совпадают с теми, которые использовались при обучении), так и «неизвестных» цифр (таблица 1).

Таблица 1. Выходная активность нейронов

№	Набор для тестирования	Общее количество спайков
№	Набор для тестирования	в модели без регуляризации	в модели с регуляризацией
1	Дельта-коррелированный шум	3162	1
2	Гауссово размытые изображения	3265	1
3	«Известные» цифры	416	344
4	«Неизвестные» цифры	346	240

В модели без регуляризации «неизвестные» данные генерировали на 17% меньше спайков, чем «известные», а в модели с регуляризацией разница в количестве спайков увеличилась до 30 % (строки 3 и 4 в таблице 1).

Также обученная сеть показала значительную разницу в спайковой активности нейронов для шумовых изображений с регуляризацией и без нее. По данным таблицы 1 видно, что ИмНС с регуляризацией практически не реагирует на шумовой сигнал (строки 1 и 2 в таблице 1), что позволяет надеяться на эффективность применения данного метода регуляризации для снижения влияния вредоносных состязательных атак (adversarial attacks) на ИмНС.

Заключение. В настоящей работе представлен новый метод регуляризации весов в ИмНС на основе биологической концепции «используй или потеряешь» (use it or lose it). Использование регуляризации в ИмНС устраняет веса, не участвующие или мало участвующие в процессе распознавания, что позволяет:

значительно снизить влияние шума на процесс распознавания и тем самым существенно уменьшить риск вредоносных атак на ИмНС;
снизить нейронную активность в ответ на «неизвестные» данные (в проведённых экспериментах в 1,8 раза), что повышает точность ИмНС и улучшает её способность к обобщению;
модулировать распространение известной и неизвестной информации, что крайне важно для реализации предиктивных вычислений в ИмНС.

Благодарности. Исследование выполнено при финансовой поддержке Российского научного фонда (проект № 24-21-00470).

Acknowledgements: The reported study was funded by the Russian Science Foundation (project number 24-21-00470).

Авторлар туралы

Dmitry Antonov

Ulyanovsk Branch of the Kotelnikov Institute of Radioengineering and Electronics of the RAS

Email: d.antonov@ulireran.ru
ORCID iD: 0000-0003-3113-8320
SPIN-код: 7847-8640

Researcher

Ресей, 48/2, Goncharov St., Ulyanovsk, 432071

Sergey Sukhov

Ulyanovsk Branch of the Kotelnikov Institute of Radioengineering and Electronics of the RAS

Хат алмасуға жауапты Автор.
Email: sukhov@ulireran.ru
ORCID iD: 0000-0002-8966-6030
SPIN-код: 6047-8716

Candidate of Physical and Mathematical Sciences, Senior Researcher

Ресей, 48/2, Goncharov St., Ulyanovsk, 432071

Әдебиет тізімі

Urolagin S., Prema K.V., Reddy N.V.S. Generalization capability of artificial neural network incorporated with pruning method. Advanced computing, networking and security. Lecture notes in computer science, Springer, 2012, vol. 7135, pp. 171-178.
Montesinos López O.A., Montesinos López A., Crossa J. Overfitting, model tuning, and evaluation of prediction performance. In: Multivariate statistical machine learning methods for genomic prediction. multivariate statistical machine learning methods for genomic prediction, 2022, pp. 109-139, doi: 10.1007/978-3-030-89010-0_4
N’dri A.W., Barbier T., Teulière C. et al. Predictive coding light: learning compact visual codes by combining excitatory and inhibitory spike timing-dependent plasticity. Proceedings of the IEEE/CVF Conference on computer vision and pattern recognition, 2023, pp. 3997-4006.
Goodfellow I., Bengio Y., Courville A. Deep Learning. MIT Press, 2016, 800 p.
Hendrycks D., Mu N., Cubuk E.D. AugMix: A Simple method to improve robustness and uncertainty under Data shift. International conference on learning representations, 2020, pp. 1-15, doi: 10.48550/arXiv.1912.02781.
Yun S., Han D., Oh S. et al. CutMix: Regularization strategy to train strong classifiers with localizable features. IEEE/CVF International conference on computer vision, 2019, pp. 6022-6031, doi: 10.1109/ICCV.2019.00612.
Maass W. Networks of spiking neurons: The third generation of neural network models. Neural Networks, 1997, vol. 10, no.9, pp. 1659–1671, doi: 10.1016/S0893-6080(97)00011-7.
Sharmin S., Panda P., Sarwar S.S. et al. A comprehensive analysis on adversarial robustness of spiking neural networks. 2019 International joint conference on neural networks, Budapest, Hungary, 2019, pp. 1-8.
Tan Y.X.M., Elovici Y., Binder A. Exploring the back alleys: analysing the robustness of alternative neural network architectures against adversarial attacks. arXiv, 2020, doi: 10.48550/arXiv.1912.03609.
Marchisio A., Nanfa G., Khalid F. et al. Is spiking secure? A comparative study on the security vulnerabilities of spiking and deep neural networks. 2020 International joint conference on neural networks (IJCNN), 2020, pp. 1-8, doi: 10.1109/IJCNN48605.2020.9207297.
Leontev M., Antonov D., Sukhov S. Robustness of spiking neural networks against adversarial attacks. 2021 International conference on information technology and nanotechnology, 2021, pp. 1-6, doi: 10.1109/ITNT52450.2021.9649179.
Antonov D., Batuev B., Sukhov S. Spiking neural networks training with combined Hebbian rules. X International conference on information technology and nanotechnology (ITNT), Samara, Russian Federation, 2024, pp. 1-5, doi: 10.1109/ITNT60778.2024.10582358.
Antonov D.I., Sukhov S.V. Obuchenie impul'snyh nejronnyh setej-klassifikatorov s pomoshh'ju lokal'nyh pravil [Training of spiking neural networks-classifiers with local rules]. XXV Mezhdunarodnaja nauchno-tehnicheskaja konferencija “Nejroinformatika-2023”. Sbornik nauchnyh trudov [Proceedings of XXV international conference on artificial neural networks “Neuroinformatics-2023”], 2023, pp. 116-125.
Shors T.J., Anderson M.L., Curlik Ii D.M. et al. Use it or lose it: how neurogenesis keeps the brain fit for learning. Behavioural brain research, 2012, vol. 227, no. 2, pp. 450-458, doi: 10.1016/j.bbr.2011.04.023.
Diehl P., Cook M. Unsupervised learning of digit recognition using spike-timing-dependent plasticity. Frontiers in computational neuroscience, 2015, vol. 9, pp. 1-9, doi: 10.5167/uzh-107763.

Қосымша файлдар

Әрекет

1. JATS XML

Жүктеу

2. Fig. 1. Changes in synaptic coupling strength as a result of canonical STDP (a) and as a result of all-LTD (b)

Жүктеу (385KB)

Метадеректер

3. Fig. 2. SNN architecture: the first layer contains 784 Poisson neurons, the second layer contains 30 excitatory and 30 reward neurons (10 of each kind per class); S1, S2 and S3 are synaptic connections

Жүктеу (853KB)

Метадеректер

4. Fig. 3. Graphical representation of the 784 weights of synaptic group S1 associated with one of the excitatory neurons: a) in the model without regularisation; b) the same weights in the model with regularisation. Blue colour corresponds to zero weight, weights different from 0 are indicated by different gradations of red colour

Жүктеу (1MB)

Метадеректер

Пайдаланушының аты
Құпиясөз
Мені есте сақтау

Құпия сөзді ұмыттыңыз ба?	Тіркеу

Пайдаланушының аты
Құпиясөз
Мені есте сақтау

Құпия сөзді ұмыттыңыз ба?	Тіркеу