Нейросетевой метод генерации последовательности символов для синтеза обучающей выборки изображений текста

Обложка

Цитировать

Полный текст

Аннотация

Объем обучающей выборки – важный фактор при решении задачи оптического распознавания текста, при этом большинство исследований направлено на увеличение разнообразия искажений, которым подвергаются картинки. Однако внутренняя структура текстовой информации также влияет на точность результирующей модели. В статье расмотрен основанный на искусственной нейронной сети метод генерации текста для создания синтетической обучающей выборки изображений, в котором возможно оперировать группами символов – алфавитными кластерами – и использовать последовательность кластеров для предсказания нового символа. Предложенный кластерный подход позволяет создавать неслучайные последовательности, сохраняющие основные свойства целевого языка, но при этом не реализуют полноценную языковую модель. Поскольку предложенный метод работает на небольшом числе кластеров, можно использовать небольшую обучающую выборку и легкую нейронную сеть. Результаты экспериментов с тремя открытыми наборами изображений документов, удостоверяющих личность, демонстрируют эффективность предложенного метода и возможность улучшения современных результатов для целевых полей.

Об авторах

Павел Константинович Злобин

Федеральное государственное учреждение «Федеральный исследовательский центр «Информатика и управление» Российской академии наук»; ООО «Smart Engines Service»

Email: p.zlobin@smartengines.com

аспирант

Россия, 119333, Москва, Вавилова, д.44, кор.2; Москва

Юлия Сергеевна Чернышова

Федеральное государственное учреждение «Федеральный исследовательский центр «Информатика и управление» Российской академии наук»; ООО «Smart Engines Service»

Автор, ответственный за переписку.
Email: chernyshova@smartengines.com

Математик

Россия, 119333, Москва, Вавилова, д.44, кор.2; Москва

Александр Владимирович Шешкус

Федеральное государственное учреждение «Федеральный исследовательский центр «Информатика и управление» Российской академии наук»; ООО «Smart Engines Service»

Email: asheshkus@smartengines.com

научный сотрудник

Россия, 119333, Москва, Вавилова, д.44, кор.2; Москва

Владимир Викторович Арлазаров

Федеральное государственное учреждение «Федеральный исследовательский центр «Информатика и управление» Российской академии наук»; ООО «Smart Engines Service»

Email: vva777@gmail.com

заведующий отделом, кандидат технических наук

Россия, 119333, Москва, Вавилова, д.44, кор.2; Москва

Список литературы

  1. Николаев Д.П., Полевой Д.В., Тарасова Н.А. Синтез обучающей выборки в задаче распознавания текста в трехмерном пространстве // ИТиВС. 2014. № 3. С. 82-88.
  2. Arlazarov V.V., Bulatov K., Chernov T. and Arlazarov V. L. “MIDV-500: A dataset for identity document analysis and recognition on mobile devices in video stream,” Computer Optics 43(5), 818–824 (2019). doi: 10.18287/2412-6179-2019-43-5-818-824.
  3. Naiemi F., Ghods V., Khalesi H. An efficient character recognition method using enhanced HOG for spam image detection, Soft Computing. 23 (2019)
  4. Bulatov K., Arlazarov V. V., Chernov T., Slavin O., Nikolaev D. Smart IDReader: Document Recognition in Video Stream // ICDAR 2017 / Manhattan, New York, U.S.: Institute of Electrical and Electronics Engineers Inc. (IEEE). 2017. Т. 6. С. 39-44. doi: 10.1109/ICDAR.2017.347.
  5. Arlazarov V.L., Arlazarov V.V., Bulatov K.B., Chernov T.S., Nikolaev D.P., Polevoy D.V., Sheshkus A.V., Skoryukina N.S., Slavin O.A., Usilin S.A. Mobile ID Document Recognition-Coarse-to-Fine Approach// Pattern Recognit. Image Anal. 2022. Т. 32. № 1. С. 89-108. doi: 10.1134/S1054661822010023.
  6. Chernyshova Y.S., Sheshkus A.V., Arlazarov V.V. Two-step CNN framework for text line recognition in camera-captured images // IEEE Access. 2020. Т. 8. С. 32587-32600. doi: 10.1109/ACCESS.2020.2974051.
  7. Jaderberg M., Simonyan K., Vedaldi A. and Zisserman A. “Synthetic data and artificial neural networks for natural scene text recognition,” in Workshop on Deep Learning, NIPS. 2014.
  8. Hula J., Mojzˇ´ısek D., Adamczyk D. and Cech R. “Acquiring Custom OCR System with Minimal Manual Annotaˇ tion,” in 2020 IEEE Third International Conference on Data Stream Mining Processing (DSMP). 2020. P. 231–236.
  9. Ren X., Chen K. and Sun J. “A CNN Based Scene Chinese Text Recognition Algorithm With Synthetic Data Engine,” CoRR abs/1604.01891. 2016.
  10. Chernyshova Y.S., Gayer A.V. and Sheshkus A.V. “Generation method of synthetic training data for mobile OCR system,” in ICMV 2017, A. Verikas, P. Radeva, D. Nikolaev, and J. Zhou, eds., 10696, 1–7, SPIE (Apr. 2018). doi: 10.1117/12.2310119.
  11. Krishnan P. and Jawahar C.V. “Generating Synthetic Data for Text Recognition,” CoRR abs/1608.04224. 2016.
  12. Liu Y., Wang Z., Jin H. and Wassell I. “Synthetically supervised feature learning for scene text recognition,” in Proceedings of the European Conference on Computer Vision (ECCV). 2018. P. 435–451.
  13. Schwarcz S., Gorban A., Serra X.G. and Lee D.-S. “Adapting Style and Content for Attended Text Sequence Recognition,” in 2020 IEEE Winter Conference on Applications of Computer Vision (WACV). 2020. 1586–1595 p.
  14. Namysl M. and Konya I. “Efficient, Lexicon-Free OCR using Deep Learning,” 2019 International Conference on Document Analysis and Recognition (ICDAR). 2019. P. 295-301. DOI: 10.1109/ ICDAR.2019.00055.
  15. Jaderberg M., Simonyan K., Vedaldi A. and Zisserman A. “Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition”, Workshop on Deep Learning, NIPS. 2014.
  16. Adnan Ul-Hasan and Thomas M. Breuel. 2013. Can we build language-independent OCR using LSTM networks? In Proceedings of the 4th International Workshop on Multilingual OCR (MOCR ‘13). Association for Computing Machinery, New York, NY, USA, Article 9, 1–5. https://doi. org/10.1145/2505377.2505394
  17. “Tesseract OCR.” https://github.com/tesseract-ocr/tesseract. Online, Accessed: 11.08.2021.
  18. Touseef Iqbal, Shaima Qureshi. The survey: Text generation models in deep learning, Journal of King Saud University – Computer and Information Sciences, Volume 34, Issue 6, Part A. 2022. 2515-2528. https://doi.org/10.1016/j.jksuci.2020.04.001.
  19. Radford A., Wu J., Child R., Luan D., Amodei D. and Sutskever I. 2019. Language models are unsupervised multitask learners. OpenAI blog. 1(8). P. 9.
  20. Gayer A.V., Sheshkus A.V., Nikolaev D.P. and Arlazarov V.V. “Improvement of U-Net Architecture for Image Binarization with Activation Functions Replacement,” in ICMV 2020, 11605, SPIE (Jan. 2021). doi: 10.1117/12.2587027.
  21. ICAO Doc 9303 Part 3: Specifications Common to all MRTDs, Machine Readable Travel Documents – International Civil Aviation Organization. 2015.
  22. Hartl, C. Arth, and D. Schmalstieg. “Real-time Detection and Recognition of Machine-Readable Zones with Mobile Devices,” VISAPP 2015 – 10th International Conference on Computer Vision Theory and Applications; VISIGRAPP, Proceedings 3. 2015. P. 79–87.
  23. Bulatov K., Matalov D. and Arlazarov V.V. “MIDV-2019: Challenges of the Modern Mobile-Based Document OCR,” in ICMV 2019, W. Osten, D. Nikolaev, and J. Zhou, eds., 11433, 1–6, SPIE (Jan. 2020). doi: 10.1117/12.2558438.
  24. Chernyshova Y.S., Emelianova E.V., Sheshkus A.V. and Arlazarov V.V. “MIDV-LAIT: a challenging dataset for recognition of IDs with Perso-Arabic, Thai, and Indian scripts,” in ICDAR. 2021.P. 1–15.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».