Распознавание цифровых последовательностей с использованием свёрточных нейронных сетей

Обложка

Цитировать

Полный текст

Аннотация

В статье показана актуальность задачи преобразования в текстовой формат элементов изображений, содержащих последовательности машинописных цифр. На примере распознавания табличной информации из отсканированных документов ППК «Роскадастр» предложено возможное решение этой задачи с использованием свёрточных нейронных сетей (CNN). Описаны принципы формирования наборов данных и моделей CNN для распознавания последовательностей из двух, трёх и четырёх цифр. Приведены результаты экспериментального исследования этих моделей и показана их эффективность. Описана интеграция моделей CNN в разрабатываемую в настоящее время информационную систему (ИС), предназначенную для автоматизированного перевода отсканированных документов в их текстовые аналоги.

Об авторах

Игорь Викторович Винокуров

Финансовый Университет при Правительстве Российской Федерации

Автор, ответственный за переписку.
Email: igvvinokurov@fa.ru
ORCID iD: 0000-0001-8697-1032
Кандидат технических наук (PhD), ассоциированный профессор в Финансовом Университете при Правительстве Российской Федерации. Область научных интересов: информационные системы, информационные технологии, технологии обработки данных.

Список литературы

  1. Винокуров И. В.. «Распознавание табличной информации с использованием свёрточных нейронных сетей», Программные системы: теория и приложения, 14:1(56) (2023), с. 3–30.
  2. Винокуров И. В.. «Использование свёрточной нейронной сети для распознавания элементов текста на отсканированных изображениях плохого качества», Программные системы: теория и приложения, 13:3(54) (2022), с. 29–43.
  3. Мюллер А., Гвидо С.. Введение в машинное обучение с помощью Python. Руководство для специалистов по обработке данных, Изд-во «ООО Альфа-книга», СПб., 2017, ISBN 978-5-907515-03-1, 480 с.
  4. M. Diem, S. Fiel, F. Kleber, R. Sablatnig, J. M. Saavedra, D. Contreras, J. M. Barrios, L. S. Oliveira. “ICFHR 2014 competition on handwritten digit string recognition in challenging datasets (HDSRC 2014)”, 2014 14th International Conference on Frontiers in Handwriting Recognition (Hersonissos, Greece, 01–04 September 2014), pp. 779–784.
  5. N. Otsu. “A threshold selection method from gray-level histograms”, IEEE Trans. Syst. Man Cybern., 9:1 (1979), pp. 62–66.
  6. J. C. B. Rabelo, C. Zanchettin, C. A. B. Mello and B. L. D. Bezerra. “A multi-layer perceptron approach to threshold documents with complex background”, 2011 IEEE International Conference on Systems, Man, and Cybernetics (Anchorage, AK, USA, 09–12 October 2011), pp. 2523–2530.
  7. J. Sauvola, M. Pietik.ainen. “Adaptive document image binarization”, Pattern Recognition, 33:2 (2000), pp. 225–236.
  8. C. Cortes, V. Vapnik. “Support-vector networks”, Mach. Learn., 20:3 (1995), pp. 273–297.
  9. T. Kohonen. “Self-organized formation of topologically correct feature maps”, Biol. Cybern., 43:1 (1982), pp. 59–69.
  10. N. Dalal, B. Triggs. “Histograms of oriented gradients for human detection”, 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, CVPR'05 (San Diego, CA, USA, 20–25 June 2005), pp. 886–893.
  11. J. J. Hopfield. “Neural networks and physical systems with emergent collective computational abilities”, Proc. Nat. Acad. Sci. USA, 79:8 (1982), pp. 2554–2558.
  12. A. Graves, J. Schmidhuber. “Offline handwriting recognition with multidimensional recurrent neural networks”, Guide to OCR for Arabic Scripts, Advances in Neural Information Processing Systems 21 (NIPS 2008), eds. M.argner V., El Abed H., Springer, London, 2008, ISBN 978-1-4471-4072-6, pp. 297–313.
  13. B. L. D. Bezerra, C. Zanchettin, V. B. de Andrade. “A MDRNN-SVM hybrid model for cursive offline handwriting recognition”, Artificial Neural Networks and Machine Learning — ICANN 2012, Lecture Notes in Computer Science, vol. 7553, Springer, Berlin, 2012, ISBN 978-3-642-33265-4, pp. 246–254.
  14. A. Gattal, Y. Chibani. “Segmentation strategy of handwritten connected digits (SSHCD)”, Image Analysis and Processing (ICIAP), 2011, pp. 248–254.
  15. M. Hejazi, G. Shevlyakov and Y.-S. Ho. “Modified discrete radon transforms and their application to rotation-invariant image analysis”, 2006 IEEE Workshop on Multimedia Signal Processing, Lecture Notes in Computer Science, vol. 6979, Springer, Berlin–Heidelberg, 2006, ISBN 978-3-642-24088-1, pp. 429–434.
  16. R. Saabni. “Recognizing handwritten single digits and digit strings using deep architecture of neural networks”, 2016 Third International Conference on Artificial Intelligence and Pattern Recognition, AIPR (Lodz, Poland, 19–21 September 2016), 2016, pp. 1–6.
  17. K. He, X. Zhang, S. Ren, J. Sun. “Deep residual learning for image recognition”, 2016 IEEE Conference on Computer Vision and Pattern Recognition, CVPR (Las Vegas, NV, USA, 27–30 June 2016), pp. 770–778.
  18. H. Zhan, Q. Wang, Y. Lu. “Handwritten digit string recognition by combination of residual network and RNN-CTC”, ICONIP 2017: Neural Information Processing, Lecture Notes in Computer Science, vol. 10639, Springer, Cham, 2017, ISBN 978-3-319-70136-3, pp. 583–591.
  19. Q. Wang, Y. Lu. “A sequence labeling convolutional network and its application to handwritten string recognition”, Twenty-Sixth International Joint Conference on Artificial Intelligence (Melbourne, Australia, 19–25 August 2017), 2017, pp. 2950–2956.
  20. H. Zhan, S. Lyu, X. Tu, Y. Lu. “Residual CRNN and its application to handwritten digit string recognition”, ICONIP 2019: Neural Information Processing, Communications in Computer and Information Science, vol. 1143, Springer, Cham, 2019, ISBN 978-3-030-36802-9, pp. 49–56.
  21. Y. Ma, J. Guo, W. Wei. “An exceedingly fast model for low resolution handwritten digit string recognition”, 2019 IEEE 7th International Conference on Computer Science and Network Technology, ICCSNT (Dalian, China, 9–20 October 2019), pp. 282–288.
  22. A. G. Hochuli, A. S. Britto, J. P. Barddal, R. Sabourin, L. E. S. Oliveira. “An End-to-End approach for recognition of modern and historical handwritten numeral strings”, 2020 International Joint Conference on Neural Networks, IJCNN (Glasgow, UK, 19–24 July 2020), 2020, pp. 1–8.
  23. J. Redmon, S. Divvala, R. Girshick, A. Farhadi. “You only look once: Unified real-time object detection”, 2016 IEEE Conference on Computer Vision and Pattern Recognition, CVPR (Las Vegas, NV, USA, 27–30 June 2016), pp. 779–788.
  24. A. G. Hochuli, L. S. Oliveira, A. S. Britto, R. Sabourin. “Handwritten digit segmentation: Is it still necessary?” Pattern Recognition, 78 (2018), pp. 1–11.
  25. J. Guo, Y. Xu. “Low Resolution Handwritten Digit String Recognition based on Object Detection Network”, 2020 International Joint Conference on Neural Networks, IJCNN (Glasgow, UK, 19–24 July 2020), pp. 1–7.
  26. J. Moolayil. Learn Keras for Deep Neural Networks. A Fast-Track Approach to Modern Deep Learning with Python, Apress, Berkeley, 2019, ISBN 978-1-4842-4240-7, xv+182 pp.
  27. S. Datta. Learning OpenCV 3 Application Development, Packt Publiching, 2016, ISBN 9781784391454, 294 pp.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».