Методы кросс-языкового поиска тематически похожих нормативно-правовых документов на основе машинного обучения

Обложка

Цитировать

Полный текст

Аннотация

Необходимость изучения мирового опыта для изменения законодательства и нормотворчества вызывает потребность в инструментах информационного поиска нормативно-правовых документов, написанных на разных языках. Одним из аспектов информационного поиска является выявление тематически похожих документов по заданному эталону. В этом контексте возникает важная задача кросс-языкового поиска, когда пользователь информационной системы задает эталонный документ на одном языке, а поисковая выдача содержит релевантные документы на других языках. В настоящем исследовании рассмотрены различные подходы к решению этой задачи: от использования коллекций-медиаторов до более современных методов, опирающихся на дистрибутивную семантику. В качестве тестовой коллекции была использована электронная библиотека ООН, содержащая как оригиналы документов на английском языке, так и их переводы на русский.

Об авторах

Владимир Викторович Жебель

Общество с ограниченной ответственностью «Технологии системного анализа»

Автор, ответственный за переписку.
Email: zhebel@isa.ru

научный сотрудник

Россия, Москва

Дмитрий Алексеевич Девяткин

Федеральный исследовательский центр «Информатика и управление» Российской академии наук

Email: devyatkin@isa.ru

научный сотрудник

Россия, Москва

Денис Владимирович Зубарев

Федеральный исследовательский центр «Информатика и управление» Российской академии наук

Email: zubarev@isa.ru

младший научный сотрудник

Россия, Москва

Илья Владимирович Соченков

Федеральный исследовательский центр «Информатика и управление» Российской академии наук; Университет Иннополис; Институт системного программирования им. В.П. Иванникова Российской академии наук

Email: sochenkov@isa.ru

кандидат физико-математических наук, ведущий эксперт-консультант, ведущий научный сотрудник, техник 1-й категории

Россия, Москва; Казань; Москва

Список литературы

  1. Dini L., Peters W., Liebwald D., Schweighofer E., Mommers L.,Voermans W. Cross-lingual legal information retrieval using a WordNet architecture, in Proceedings of the 10th international conference on Artificial intelligence and law. Bologna. Italy. 2005.
  2. Абрамова Н. Н., Глобус Е. И. Формирование многоязычных словарей и их использование при кросс-языковом поиске информации. Интернетматематика. Автоматическая обработка веб-данных. 2005. С. 18-37.
  3. Curtoni P., Dini L., Tomaso V. D., Mommers L., Peters W., Quaresma P., Schweighofer E., Tiscornia D. Semantic access to multilingual legal information. 1999.
  4. Oard D.W., Hackett P. Document translation for crosslanguage text retrieval at the University of Maryland. The 6th Text Retrieval Convference (TREC-6). E.M. Voorchees and D.K. Harman. 1998.
  5. McCarley J.S. Should we translate the documents or the queries in cross-language information retrieval? ACL’99: Proceedings of the 37 annual meeting of the Association for Computational Linguistics on Computational Linguistics. 1999. P. 208-214.
  6. Dumais S., Letsche T., Littman M., Landauer T. Automatic cross-language retrieval using latent semantic indexing. AAAI Spring Symposium on Cross-Language Text and Speech Retrieval. 1997. P. 18-24.
  7. Chandar A.P.S., Lauly S., Larochelle H., Khapra M., Ravindran B., Raykar V.C., SahaA. An autoencoder approach to learning bilingual word representations. Proc. 27th International Conference on Neural Information Processing Systems. 2014. Р. 1853-1861.
  8. Mueller J., Thyagarajan A. Siamese recurrent architectures for learning sentence similarity. Proc. 30th AAAI Conference on artificial intelligical intelligence. 2016. Р. 2786-2792.
  9. Seki K. On cross-lingual text similarity using neural translation models. Journal of Information Processing. Vol. 27. 2019. Р. 315-321.
  10. Жебель В.В., Крескин А.Д., Соченков И.В.: Кроссязыковой анализ юридических документов. Труды ИСА РАН. 2020. Т.70. №1. С.24-29.
  11. Potthast M., Barrón-Cedeño A., Stein B., Rosso P. Crosslanguage plagiarism detection. Language Resources and Evaluation. 2011. №45(1). Р. 45–62.
  12. Sochenkov I.V., Zubarev D.V., Tikhomirov I.A. Exploratory patent search. Informatics and its Applications.2018.№12 (1). Р. 89-94.
  13. Mikolov T., Chen K., Corrado G., Dean J. Efficient estimation of word representations in vector space. In: ICLR Workshop. 2013.
  14. Rekabsaz N., Lupu M., Hanbury A., Zuccon G. Generalizing translation models in the probabilistic relevance framework. In: Proceedings of CIKM. 2016.
  15. Robertson S.E. et al. Okapi at TREC-3.0. In: Proceedings of the Third Text REtrieval Conference (TREC 1994). Gaithersburg USA. November.1994.
  16. Vulić I., Moens M.F. Bilingual word embeddings from non-parallel document-aligned data applied to bilingual lexicon induction. In: Proc. of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. 2015). Vol. 2. P.719–725.
  17. Zubarev D.V., Sochenkov I.V. Cross-lingual similar document retrieval methods. Proceedings of the Institute for System Programming. 2019. №31 (5). Р.127–136.
  18. Tiedemann J. Parallel Data, Tools and Interfaces in OPUS. In: Proc. of the language resources and evaluation (LREC). 2012. Р.2214-2218.
  19. Artetxe M., Schwenk H. Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond. Transactions of the Association for Computational Linguistics. 2019). №7. Р.597–610.
  20. Johnson J., Douze M., Jégou H. Billion-scale similarity search with GPUs. arXiv:1702.0873. 2017.
  21. Devyatkin D., Pogorelskaya Y., Yadrintsev V., Sochenkov Detection of Missed Links in Large Legal Corpora. 2021 Ivannikov Memorial Workshop (IVMEM). 2021.Р. 23-27.
  22. Reimers N., Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics. 2019. Р.3982–3992.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».