Анализ влияния гиперпараметров на эффективность OCR-модели для дореформенных рукописных текстов

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

В статье рассматривается влияние гиперпараметров на эффективность моделей оптического распознавания рукописного текста дореформенного периода на примере рукописных отчетов губернаторов Енисейской губернии XIX в. Проведен сравнительный анализ конфигураций моделей с различными архитектурными компонентами, включая модули нормализации, блоки выделения признаков и предсказатели. Особое внимание уделено роли разрешения входного изображения и размера скрытых слоев в достижении оптимального баланса между точностью предсказания и вычислительными затратами. Полученные результаты позволяют определить ключевые параметры для разработки систем оптического распознавания символов, адаптированных к историческим текстам с нестандартной орфографией и сложной структурой. Перспективы дальнейших исследований включают оценку синтетических методов расширения обучающих данных и анализ альтернативных архитектур, таких как трансформеры.

Об авторах

П. А. Шерстнев

Центр Искусственного Интеллекта Сибирского Федерального Университета

Автор, ответственный за переписку.
Email: sherstpasha99@gmail.com
660074, Красноярск, Академика Киренского 26, к. 1, Россия

К. Д. Кожин

Центр Искусственного Интеллекта Сибирского Федерального Университета

Email: kozhin-sfu@yandex.ru
660074, Красноярск, Академика Киренского 26, к. 1, Россия

А. В. Пятаева

Центр Искусственного Интеллекта Сибирского Федерального Университета

Email: anna4u@list.ru
660074, Красноярск, Академика Киренского 26, к. 1, Россия

Список литературы

  1. Karatzas D., Gomez-Bigorda L., Nicolaou A. et al. ICDAR 2015 Robust Reading Competition // Proceedings of the International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2015. doi: 10.1109/ICDAR.2015.7333942.
  2. Lattner C. LLVM: An Infrastructure for Multi-Stage Optimization. Master’s thesis, Computer Science Dept., University of Illinois at Urbana-Champaign, Urbana, IL.
  3. de Campos T., Babu B., Varma M. Character Recognition in Natural Images // Proceedings of the International Conference on Computer Vision Theory and Applications (VISAPP). 2009.
  4. Chammas E., Mokbel C., Likforman-Sulem L. Handwriting Recognition of Historical Documents with Few Labeled Data. Proceedings of the 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). 2018.
  5. Mohammed H., Jampour M. From Detection to Modelling: An End-to-End Paleographic System for Analysing Historical Handwriting Styles. Lecture Notes in Computer Science 2024. 14994. P. 363–376.
  6. Галушко И.Н. Корректировка результатов OCR-распознавания текста исторического источника с помощью нечетких множеств (на примере газеты начала XX века) // Историческая информатика. 2023. № 1. https://cyberleninka.ru/article/n/korrektirovka-rezultatov-ocr-raspoznavaniya-teksta-istoricheskogo-istochnika-s-pomoschyu-nechetkih-mnozhestv-na-primere-gazety
  7. Рогов А.А., Скабин А.В., Штеркель И.А. О дешифровке рукописных исторических документов // CEUR Workshop Proceedings. 2012.
  8. Юмашева Ю.Ю. Автоматизированное распознавание рукописных текстов с помощью алгоритмов искусственного интеллекта: российский и зарубежный опыт // Digital Orientalia. 2023. Т. 3. № 1–2. С. 24–32.
  9. Li M., Lv T., Chen J. et al. TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models // arXiv preprint arXiv:2109.10282. 2021. https://arxiv.org/abs/2109.10282
  10. Coquenet D., Chatelain C., Paquet T. End-to-End Handwritten Paragraph Text Recognition Using a Vertical Attention Network // arXiv preprint arXiv:2012.03868. 2020. https://arxiv.org/abs/2012.03868
  11. Baek Y., Lee B., Han D., Yun S., Lee H. Character Region Awareness for Text Detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. P. 9365–9374. doi: 10.1109/CVPR.2019.00960.
  12. Zhou X., Yao C., Wen H., Wang Y., Zhou S., He W., Liang J. EAST: An Efficient and Accurate Scene Text Detector. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017. P. 5551–5560. doi: 10.1109/CVPR.2017.587.
  13. Liao M., Wan Z., Yao C., Chen K., Bai X. (2020). Real-time Scene Text Detection with Differentiable Binarization. Proceedings of the AAAI Conference on Artificial Intelligence. V. 34. № 7. P. 11474–11481. doi: 10.1609/aaai.v34i07.6884.
  14. Lang W., Xie E., Li X., Hou W., Lu T., Yu G., Shao S. Shape Robust Text Detection with Progressive Scale Expansion Network. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. P. 9336–9345. doi: 10.1109/CVPR.2019.00956.
  15. Baek J., Kim G., Lee J., Park S., Han D., Yun S., Oh S.J., Lee H. What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). 2019. P. 4715–4723. doi: 10.1109/ICCV.2019.00485.
  16. Smith R. An Overview of the Tesseract OCR Engine. Proceedings of the Ninth International Conference on Document Analysis and Recognition (ICDAR). 2007. P. 629–633. doi: 10.1109/ICDAR.2007.4376991.
  17. Brandt Skelbye M., Dannélls D. OCR Processing of Swedish Historical Newspapers Using Deep Hybrid CNN–LSTM Networks. Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2021). 2021. P. 190–198. https://aclanthology.org/2021.ranlp-1.23/
  18. Wick C., Reul C., Puppe F. Improving OCR Accuracy on Early Printed Books using Deep Convolutional Networks. 2018. arXiv preprint arXiv:1802.10033. https://arxiv.org/abs/1802.10033
  19. Lyu L., Koutraki M., Krickl M., Fetahu B. Neural OCR Post-Hoc Correction of Historical Corpora. 2021. arXiv preprint arXiv:2102.00583. https://arxiv.org/abs/2102.00583
  20. Shi B., Wang X., Lyu P., Yao C., Bai X. ASTER: An Attentional Scene Text Recognizer with Flexible Rectification. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). 2018. № 41(9). Р. 2035–2048. doi: 10.1109/TPAMI.2018.2848938.
  21. Sun Z., Pan W., Luo X. Attention-based Handwritten Text Recognition Using CNN-BiLSTM Architecture. Proceedings of the International Conference on Document Analysis and Recognition (ICDAR). 2019.
  22. Luong M.T., Pham H., Manning C.D. Effective Approaches to Attention-based Neural Machine Translation. 2015. arXiv preprint arXiv:1508.04025. https://arxiv.org/abs/1508.04025
  23. FromThePage: Collaborative Transcription and OCR Platform. https://www.fromthepage.com (дата обращения: 15.01.2025)
  24. Отчеты губернаторов Енисейской губернии // FromThePage. https://fromthepage.sfu-kras.ru/lib/otchyoty-gubernatorov-eniseyskoy-gubernii (дата обращения: 15.01.2025)
  25. Кожин К. Программа для разметки изображений под задачи оптического распознавания символов (Anno OCR): Свид. о регистр. ПрЭВМ № 2024684369. Российская Федерация, 2024.
  26. Mann H.B., Whitney D.R. On a Test of Whether one of Two Random Variables is Stochastically Larger than the Other // Annals of Mathematical Statistics. 1947. V. 18. № 1. P. 50–60.
  27. Zhu X. Sample size calculation for Mann-Whitney U test with five methods // International Journal of Clinical Trials. 2021. V. 8. № 3. P. 184–190.
  28. Mokeyev A., Artemova E., Malkin P. StackMix and Blot Augmentations for Handwritten Recognition using CTCLoss. arXiv preprint arXiv:2108.11667. 2021. https://arxiv.org/abs/2108.11667
  29. Fogel S., Averbuch-Elor H., Cohen S., Mazor S., Litman R. ScrabbleGAN: Semi-Supervised Varying Length Handwritten Text Generation. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020. P. 4324–4333. doi: 10.1109/CVPR42600.2020.00430.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Российская академия наук, 2025

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».