Методы кросс-языкового поиска тематически похожих нормативно-правовых документов на основе машинного обучения
- Авторы: Жебель В.В.1, Девяткин Д.А.2, Зубарев Д.В.2, Соченков И.В.2,3,4
-
Учреждения:
- Общество с ограниченной ответственностью «Технологии системного анализа»
- Федеральный исследовательский центр «Информатика и управление» Российской академии наук
- Университет Иннополис
- Институт системного программирования им. В.П. Иванникова Российской академии наук
- Выпуск: № 2 (2022)
- Страницы: 27-35
- Раздел: Анализ текстовой и графической информации
- URL: https://bakhtiniada.ru/2071-8594/article/view/270288
- DOI: https://doi.org/10.14357/10.14357/20718594220203
- ID: 270288
Цитировать
Полный текст
Аннотация
Необходимость изучения мирового опыта для изменения законодательства и нормотворчества вызывает потребность в инструментах информационного поиска нормативно-правовых документов, написанных на разных языках. Одним из аспектов информационного поиска является выявление тематически похожих документов по заданному эталону. В этом контексте возникает важная задача кросс-языкового поиска, когда пользователь информационной системы задает эталонный документ на одном языке, а поисковая выдача содержит релевантные документы на других языках. В настоящем исследовании рассмотрены различные подходы к решению этой задачи: от использования коллекций-медиаторов до более современных методов, опирающихся на дистрибутивную семантику. В качестве тестовой коллекции была использована электронная библиотека ООН, содержащая как оригиналы документов на английском языке, так и их переводы на русский.
Об авторах
Владимир Викторович Жебель
Общество с ограниченной ответственностью «Технологии системного анализа»
Автор, ответственный за переписку.
Email: zhebel@isa.ru
научный сотрудник
Россия, МоскваДмитрий Алексеевич Девяткин
Федеральный исследовательский центр «Информатика и управление» Российской академии наук
Email: devyatkin@isa.ru
научный сотрудник
Россия, МоскваДенис Владимирович Зубарев
Федеральный исследовательский центр «Информатика и управление» Российской академии наук
Email: zubarev@isa.ru
младший научный сотрудник
Россия, МоскваИлья Владимирович Соченков
Федеральный исследовательский центр «Информатика и управление» Российской академии наук; Университет Иннополис; Институт системного программирования им. В.П. Иванникова Российской академии наук
Email: sochenkov@isa.ru
кандидат физико-математических наук, ведущий эксперт-консультант, ведущий научный сотрудник, техник 1-й категории
Россия, Москва; Казань; МоскваСписок литературы
- Dini L., Peters W., Liebwald D., Schweighofer E., Mommers L.,Voermans W. Cross-lingual legal information retrieval using a WordNet architecture, in Proceedings of the 10th international conference on Artificial intelligence and law. Bologna. Italy. 2005.
- Абрамова Н. Н., Глобус Е. И. Формирование многоязычных словарей и их использование при кросс-языковом поиске информации. Интернетматематика. Автоматическая обработка веб-данных. 2005. С. 18-37.
- Curtoni P., Dini L., Tomaso V. D., Mommers L., Peters W., Quaresma P., Schweighofer E., Tiscornia D. Semantic access to multilingual legal information. 1999.
- Oard D.W., Hackett P. Document translation for crosslanguage text retrieval at the University of Maryland. The 6th Text Retrieval Convference (TREC-6). E.M. Voorchees and D.K. Harman. 1998.
- McCarley J.S. Should we translate the documents or the queries in cross-language information retrieval? ACL’99: Proceedings of the 37 annual meeting of the Association for Computational Linguistics on Computational Linguistics. 1999. P. 208-214.
- Dumais S., Letsche T., Littman M., Landauer T. Automatic cross-language retrieval using latent semantic indexing. AAAI Spring Symposium on Cross-Language Text and Speech Retrieval. 1997. P. 18-24.
- Chandar A.P.S., Lauly S., Larochelle H., Khapra M., Ravindran B., Raykar V.C., SahaA. An autoencoder approach to learning bilingual word representations. Proc. 27th International Conference on Neural Information Processing Systems. 2014. Р. 1853-1861.
- Mueller J., Thyagarajan A. Siamese recurrent architectures for learning sentence similarity. Proc. 30th AAAI Conference on artificial intelligical intelligence. 2016. Р. 2786-2792.
- Seki K. On cross-lingual text similarity using neural translation models. Journal of Information Processing. Vol. 27. 2019. Р. 315-321.
- Жебель В.В., Крескин А.Д., Соченков И.В.: Кроссязыковой анализ юридических документов. Труды ИСА РАН. 2020. Т.70. №1. С.24-29.
- Potthast M., Barrón-Cedeño A., Stein B., Rosso P. Crosslanguage plagiarism detection. Language Resources and Evaluation. 2011. №45(1). Р. 45–62.
- Sochenkov I.V., Zubarev D.V., Tikhomirov I.A. Exploratory patent search. Informatics and its Applications.2018.№12 (1). Р. 89-94.
- Mikolov T., Chen K., Corrado G., Dean J. Efficient estimation of word representations in vector space. In: ICLR Workshop. 2013.
- Rekabsaz N., Lupu M., Hanbury A., Zuccon G. Generalizing translation models in the probabilistic relevance framework. In: Proceedings of CIKM. 2016.
- Robertson S.E. et al. Okapi at TREC-3.0. In: Proceedings of the Third Text REtrieval Conference (TREC 1994). Gaithersburg USA. November.1994.
- Vulić I., Moens M.F. Bilingual word embeddings from non-parallel document-aligned data applied to bilingual lexicon induction. In: Proc. of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. 2015). Vol. 2. P.719–725.
- Zubarev D.V., Sochenkov I.V. Cross-lingual similar document retrieval methods. Proceedings of the Institute for System Programming. 2019. №31 (5). Р.127–136.
- Tiedemann J. Parallel Data, Tools and Interfaces in OPUS. In: Proc. of the language resources and evaluation (LREC). 2012. Р.2214-2218.
- Artetxe M., Schwenk H. Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond. Transactions of the Association for Computational Linguistics. 2019). №7. Р.597–610.
- Johnson J., Douze M., Jégou H. Billion-scale similarity search with GPUs. arXiv:1702.0873. 2017.
- Devyatkin D., Pogorelskaya Y., Yadrintsev V., Sochenkov Detection of Missed Links in Large Legal Corpora. 2021 Ivannikov Memorial Workshop (IVMEM). 2021.Р. 23-27.
- Reimers N., Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics. 2019. Р.3982–3992.
Дополнительные файлы
