Акустическое обнаружение транспортных средств аварийных служб с использованием сверхточных нейронных сетей

Обложка

Цитировать

Полный текст

Аннотация

Обоснование: Сирена – это особый сигнал, подаваемый транспортными средствами службы экстренной помощи, такими как: пожарные машины, полицейские машины и машины скорой помощи для предупреждения водителей или пешеходов на дороге. Однако водители иногда могут не услышать звуки сирены из-за звукоизоляции современного автомобиля, шума городского трафика или причине собственной невнимательности. Эта проблема может привести к задержке в предоставлении помощи экстренных служб или даже к дорожно-транспортным происшествиям.

Цель: разработка акустического метода обнаружения присутствия автомобилей экстренных служб на дороге посредством применения сверточных нейронных сетей.

Материалы и методы: Алгоритм работы основан на преобразовании звука из внешней среды в его спектрограмму, для анализа методом машинного обучения – сверточными нейронными сетями. В качестве датасета звуков сирены и городского трафика использовался открытый набор данных (Emergency Vehicle Siren Sounds) из источников, доступных на интернет-сайтах, таких как Google и Youtube, сохраненных в аудиоформате “.wav”. Код разрабатывался на платформе Google.Colab при помощи облачного хранилища.

Результаты: Проведенные эксперименты показали, что предлагаемый метод и архитектура нейросети позволяют достичь средней эффективности определения типа звука с точностью 93,3 % и скоростью 0,0004±5 % секунды.

Заключение: Использование разработанной технологии распознавания сигналов экстренных служб в условиях городского трафика позволит повысить безопасность дорожного движения и увеличить шансы на предотвращение опасной ситуации. Также данная система может являться дополнительным помощником для слабослышащих людей во время вождения и повседневной жизни для своевременного оповещения о наличии поблизости экстренных служб.

Об авторах

Андрей Анатольевич Лисов

Южно-Уральский государственный университет

Автор, ответственный за переписку.
Email: lisov.andrey2013@yandex.ru
ORCID iD: 0000-0001-7282-8470
SPIN-код: 1956-3662

аспирант

Россия, Челябинск

Аскар Зайдакбаевич Кулганатов

Южно-Уральский государственный университет

Email: kulganatov97@gmail.com
ORCID iD: 0000-0002-7576-7949
SPIN-код: 7607-9723

аспирант

Россия, Челябинск

Сергей Алексеевич Панишев

Южно-Уральский государственный университет

Email: panishef.serega@mail.ru
ORCID iD: 0000-0003-2753-2341
SPIN-код: 2676-5207

аспирант

Россия, Челябинск

Список литературы

  1. Kanzaria HK, Probst MA, Hsia RY. Emergency department death rates dropped by nearly 50 percent, 1997–2011. Health Affairs. 2016 Jul 1;35(7):1303-8. doi: 10.1377/hlthaff.2015.1394
  2. Lee J, Park J, Kim KL, Nam J. Sample-level deep convolutional neural networks for music auto-tagging using raw waveforms. arXiv preprint arXiv:1703.01789. 2017 Mar 6. doi: 10.48550/arXiv.1703.01789
  3. Zhu Z, Engel JH, Hannun A. Learning multiscale features directly from waveforms. arXiv preprint arXiv:1603.09509. 2016 Mar 31. doi: 10.48550/arXiv.1603.09509
  4. Choi K, Fazekas G, Sandler M. Automatic tagging using deep convolutional neural networks. arXiv preprint arXiv:1606.00298. 2016 Jun 1. doi: 10.48550/arXiv.1606.00298
  5. Nasrullah Z, Zhao Y. Music artist classification with convolutional recurrent neural networks. In2019 International Joint Conference on Neural Networks (IJCNN) 2019 Jul 14 (pp. 1-8). IEEE. doi: 10.1109/IJCNN.2019.8851988
  6. Wang Z, Muknahallipatna S, Fan M, et al. Music classification using an improved crnn with multi-directional spatial dependencies in both time and frequency dimensions. In2019 International Joint Conference on Neural Networks (IJCNN) 2019 Jul 14 (pp. 1-8). IEEE. doi: 10.1109/IJCNN.2019.8852128
  7. Dieleman S, Brakel P, Schrauwen B. Audio-based music classification with a pretrained convolutional network. In12th International Society for Music Information Retrieval Conference (ISMIR-2011) 2011 (pp. 669-674). University of Miami.
  8. Chen MT, Li BJ, Chi TS. CNN based two-stage multi-resolution end-to-end model for singing melody extraction. InICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2019 May 12 (pp. 1005-1009). IEEE. doi: 10.1109/ICASSP.2019.8683630
  9. Phan H, Koch P, Katzberg F, et al. Audio scene classification with deep recurrent neural networks. arXiv preprint arXiv:1703.04770. 2017 Mar 14. doi: 10.48550/arXiv.1703.04770
  10. Gimeno P, Viñals I, Ortega A, et al. Multiclass audio segmentation based on recurrent neural networks for broadcast domain data. EURASIP Journal on Audio, Speech, and Music Processing. 2020 Dec;2020:1-9.
  11. Dai J, Liang S, Xue W, et al. Long short-term memory recurrent neural network based segment features for music genre classification. In2016 10th International Symposium on Chinese Spoken Language Processing (ISCSLP) 2016 Oct 17 (pp. 1-5). IEEE. doi: 10.1109/ISCSLP.2016.7918369
  12. Zhang Z, Xu S, Zhang S, et al. Attention based convolutional recurrent neural network for environmental sound classification. Neurocomputing. 2021 Sep 17;453:896-903. doi: 10.1016/j.neucom.2020.08.069
  13. Wang H, Zou Y, Chong D, Wang W. Environmental sound classification with parallel temporal-spectral attention. arXiv preprint arXiv:1912.06808. 2019 Dec 14. doi: 10.48550/arXiv.1912.06808
  14. Sang J, Park S, Lee J. Convolutional recurrent neural networks for urban sound classification using raw waveforms. In2018 26th European Signal Processing Conference (EUSIPCO) 2018 Sep 3 (pp. 2444-2448). IEEE. doi: 10.23919/EUSIPCO.2018.8553247
  15. Choi K, Fazekas G, Sandler M, Cho K. Convolutional recurrent neural networks for music classification. In2017 IEEE International conference on acoustics, speech and signal processing (ICASSP) 2017 Mar 5 (pp. 2392-2396). IEEE. doi: 10.1109/ICASSP.2017.7952585
  16. Gwardys G, Grzywczak D. Deep image features in music information retrieval. International Journal of Electronics and Telecommunications. 2014;60:321-6. doi: 10.2478/eletel-2014-0042
  17. Krizhevsky A, Sutskever I, Hinton GE. Imagenet classification with deep convolutional neural networks. Communications of the ACM. 2017 May 24;60(6):84-90. doi: 10.1145/3065386
  18. Deng J, Dong W, Socher R, et al. Imagenet: A large-scale hierarchical image database. In2009 IEEE conference on computer vision and pattern recognition 2009 Jun 20 (pp. 248-255). IEEE. doi: 10.1109/CVPR.2009.5206848
  19. Emergency Vehicle Siren Sounds [Internet]. Kaggle [cited 2023 February 23]. Available from: https://www.kaggle.com/vishnu0399/emergency-vehicle-siren-sounds
  20. CNN for audio recognition. GitHub [cited 2023 February 23]. Available from: https://github.com/AnLiMan/CNN-for-audio-recognition

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Архитектура CNN для распознавания сирены аварийных служб

Скачать (29KB)
3. Рис. 2. Спектрограмма скорой машины (ambulance)

4. Рис. 3. Спектрограмма пожарной машины (firetruck)

5. Рис. 4. Спектрограмма городского шума (traffic)

6. Рис. 5. «Очищенная» спектрограмма звуковой дорожки

Скачать (63KB)
7. Рис. 6. Алгоритм обучения сверточной нейронной сети

Скачать (22KB)
8. Рис. 7. График процесса обучения

Скачать (48KB)
9. Рис. 8. Проверка точности распознавания на 16-ти случайных спектрограммах

Скачать (225KB)
10. Рис. 9. Проверка отдельного изображения из тестовой выборки

Скачать (23KB)

© Лисов А.А., Кулганатов А.З., Панишев С.А., 2023

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».