Анализ влияния гиперпараметров на эффективность OCR-модели для дореформенных рукописных текстов
- Авторы: Шерстнев П.А.1, Кожин К.Д.1, Пятаева А.В.1
-
Учреждения:
- Центр Искусственного Интеллекта Сибирского Федерального Университета
- Выпуск: № 3 (2025)
- Страницы: 70–79
- Раздел: КОМПЬЮТЕРНАЯ ГРАФИКА И ВИЗУАЛИЗАЦИЯ
- URL: https://consilium.orscience.ru/0132-3474/article/view/688124
- DOI: https://doi.org/10.31857/S0132347425030071
- EDN: https://elibrary.ru/GRLAPG
- ID: 688124
Цитировать
Полный текст



Аннотация
В статье рассматривается влияние гиперпараметров на эффективность моделей оптического распознавания рукописного текста дореформенного периода на примере рукописных отчетов губернаторов Енисейской губернии XIX в. Проведен сравнительный анализ конфигураций моделей с различными архитектурными компонентами, включая модули нормализации, блоки выделения признаков и предсказатели. Особое внимание уделено роли разрешения входного изображения и размера скрытых слоев в достижении оптимального баланса между точностью предсказания и вычислительными затратами. Полученные результаты позволяют определить ключевые параметры для разработки систем оптического распознавания символов, адаптированных к историческим текстам с нестандартной орфографией и сложной структурой. Перспективы дальнейших исследований включают оценку синтетических методов расширения обучающих данных и анализ альтернативных архитектур, таких как трансформеры.
Полный текст

Об авторах
П. А. Шерстнев
Центр Искусственного Интеллекта Сибирского Федерального Университета
Автор, ответственный за переписку.
Email: sherstpasha99@gmail.com
ORCID iD: 0000-0003-2816-9433
Россия, 660074, Красноярск, Академика Киренского 26, к. 1
К. Д. Кожин
Центр Искусственного Интеллекта Сибирского Федерального Университета
Email: kozhin-sfu@yandex.ru
ORCID iD: 0009-0003-4966-2427
Россия, 660074, Красноярск, Академика Киренского 26, к. 1
А. В. Пятаева
Центр Искусственного Интеллекта Сибирского Федерального Университета
Email: anna4u@list.ru
ORCID iD: 0000-0002-0140-263X
Россия, 660074, Красноярск, Академика Киренского 26, к. 1
Список литературы
- Karatzas D., Gomez-Bigorda L., Nicolaou A. et al. ICDAR 2015 Robust Reading Competition // Proceedings of the International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2015. doi: 10.1109/ICDAR.2015.7333942.
- Lattner C. LLVM: An Infrastructure for Multi-Stage Optimization. Master’s thesis, Computer Science Dept., University of Illinois at Urbana-Champaign, Urbana, IL.
- de Campos T., Babu B., Varma M. Character Recognition in Natural Images // Proceedings of the International Conference on Computer Vision Theory and Applications (VISAPP). 2009.
- Chammas E., Mokbel C., Likforman-Sulem L. Handwriting Recognition of Historical Documents with Few Labeled Data. Proceedings of the 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). 2018.
- Mohammed H., Jampour M. From Detection to Modelling: An End-to-End Paleographic System for Analysing Historical Handwriting Styles. Lecture Notes in Computer Science 2024. 14994. P. 363–376.
- Галушко И.Н. Корректировка результатов OCR-распознавания текста исторического источника с помощью нечетких множеств (на примере газеты начала XX века) // Историческая информатика. 2023. № 1. https://cyberleninka.ru/article/n/korrektirovka-rezultatov-ocr-raspoznavaniya-teksta-istoricheskogo-istochnika-s-pomoschyu-nechetkih-mnozhestv-na-primere-gazety
- Рогов А.А., Скабин А.В., Штеркель И.А. О дешифровке рукописных исторических документов // CEUR Workshop Proceedings. 2012.
- Юмашева Ю.Ю. Автоматизированное распознавание рукописных текстов с помощью алгоритмов искусственного интеллекта: российский и зарубежный опыт // Digital Orientalia. 2023. Т. 3. № 1–2. С. 24–32.
- Li M., Lv T., Chen J. et al. TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models // arXiv preprint arXiv:2109.10282. 2021. https://arxiv.org/abs/2109.10282
- Coquenet D., Chatelain C., Paquet T. End-to-End Handwritten Paragraph Text Recognition Using a Vertical Attention Network // arXiv preprint arXiv:2012.03868. 2020. https://arxiv.org/abs/2012.03868
- Baek Y., Lee B., Han D., Yun S., Lee H. Character Region Awareness for Text Detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. P. 9365–9374. doi: 10.1109/CVPR.2019.00960.
- Zhou X., Yao C., Wen H., Wang Y., Zhou S., He W., Liang J. EAST: An Efficient and Accurate Scene Text Detector. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017. P. 5551–5560. doi: 10.1109/CVPR.2017.587.
- Liao M., Wan Z., Yao C., Chen K., Bai X. (2020). Real-time Scene Text Detection with Differentiable Binarization. Proceedings of the AAAI Conference on Artificial Intelligence. V. 34. № 7. P. 11474–11481. doi: 10.1609/aaai.v34i07.6884.
- Lang W., Xie E., Li X., Hou W., Lu T., Yu G., Shao S. Shape Robust Text Detection with Progressive Scale Expansion Network. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. P. 9336–9345. doi: 10.1109/CVPR.2019.00956.
- Baek J., Kim G., Lee J., Park S., Han D., Yun S., Oh S.J., Lee H. What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). 2019. P. 4715–4723. doi: 10.1109/ICCV.2019.00485.
- Smith R. An Overview of the Tesseract OCR Engine. Proceedings of the Ninth International Conference on Document Analysis and Recognition (ICDAR). 2007. P. 629–633. doi: 10.1109/ICDAR.2007.4376991.
- Brandt Skelbye M., Dannélls D. OCR Processing of Swedish Historical Newspapers Using Deep Hybrid CNN–LSTM Networks. Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2021). 2021. P. 190–198. https://aclanthology.org/2021.ranlp-1.23/
- Wick C., Reul C., Puppe F. Improving OCR Accuracy on Early Printed Books using Deep Convolutional Networks. 2018. arXiv preprint arXiv:1802.10033. https://arxiv.org/abs/1802.10033
- Lyu L., Koutraki M., Krickl M., Fetahu B. Neural OCR Post-Hoc Correction of Historical Corpora. 2021. arXiv preprint arXiv:2102.00583. https://arxiv.org/abs/2102.00583
- Shi B., Wang X., Lyu P., Yao C., Bai X. ASTER: An Attentional Scene Text Recognizer with Flexible Rectification. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). 2018. № 41(9). Р. 2035–2048. doi: 10.1109/TPAMI.2018.2848938.
- Sun Z., Pan W., Luo X. Attention-based Handwritten Text Recognition Using CNN-BiLSTM Architecture. Proceedings of the International Conference on Document Analysis and Recognition (ICDAR). 2019.
- Luong M.T., Pham H., Manning C.D. Effective Approaches to Attention-based Neural Machine Translation. 2015. arXiv preprint arXiv:1508.04025. https://arxiv.org/abs/1508.04025
- FromThePage: Collaborative Transcription and OCR Platform. https://www.fromthepage.com (дата обращения: 15.01.2025)
- Отчеты губернаторов Енисейской губернии // FromThePage. https://fromthepage.sfu-kras.ru/lib/otchyoty-gubernatorov-eniseyskoy-gubernii (дата обращения: 15.01.2025)
- Кожин К. Программа для разметки изображений под задачи оптического распознавания символов (Anno OCR): Свид. о регистр. ПрЭВМ № 2024684369. Российская Федерация, 2024.
- Mann H.B., Whitney D.R. On a Test of Whether one of Two Random Variables is Stochastically Larger than the Other // Annals of Mathematical Statistics. 1947. V. 18. № 1. P. 50–60.
- Zhu X. Sample size calculation for Mann-Whitney U test with five methods // International Journal of Clinical Trials. 2021. V. 8. № 3. P. 184–190.
- Mokeyev A., Artemova E., Malkin P. StackMix and Blot Augmentations for Handwritten Recognition using CTCLoss. arXiv preprint arXiv:2108.11667. 2021. https://arxiv.org/abs/2108.11667
- Fogel S., Averbuch-Elor H., Cohen S., Mazor S., Litman R. ScrabbleGAN: Semi-Supervised Varying Length Handwritten Text Generation. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020. P. 4324–4333. doi: 10.1109/CVPR42600.2020.00430.
Дополнительные файлы
