Анализ идиом в нейронном машинном переводе: набор данных

Обложка

Цитировать

Полный текст

Аннотация

В разных кругах общественности ни одно десятилетние идут споры о том, может ли «машина заменить человека». Это касается и области перевода. И пока, одни рассуждают, другие «воплощают мечту в реальность». Поэтому сейчас всё больше исследований направлены на усовершенствование систем машинного перевода (далее МП). Чтобы понять преимущества и недостатки систем МП, необходимо, в первую очередь разобраться в их алгоритмах. На данный момент основной открытой проблемой нейронного машинного перевода (НМП) является перевод идиоматических выражений. Значение таких выражений не складывается из значений составляющих их слов, и модели НМП склонны переводить их буквально (т. е. дословно), что приводит к запутанным и бессмысленным переводам. Исследования идиом в НМП ограничены и затруднены из-за отсутствия автоматических методов. Поэтому несмотря на то, что современные системы НМП генерируют все более качественные переводы, перевод идиом остается одной из нерешенных задач в этой области. Это происходит из-за того, что идиомы, как категория многословных выражений, представляют собой интересное языковое явление, когда общее значение выражения невозможно составить из значений его частей. Первая важная проблема – отсутствие специальных наборов данных для обучения и оценки перевода идиом. В данной работе мы решаем эту проблему, создавая первый крупномасштабный набор данных для перевода идиом. Данный набор данных автоматически извлекается из используемого корпуса переводов с немецкого языка и включает в себя целевой набор, в котором все предложения содержат идиомы, и обычный обучающий корпус, в котором предложения, содержащие идиомы, помечаются. Мы выпустили этот набор данных и используем его для проведения предварительных экспериментов по НМП в качестве первого шага к улучшению перевода идиом.

Об авторах

Нина Васильевна Скачёва

Сибирский Государственный Университет Науки и Технологий им. академика М.Ф. Решетнева

Email: Sollo_sk@mail.ru
ORCID iD: 0000-0003-2628-6767
старший преподаватель; кафедра лингвистики, теории и практики перевода;старший преподаватель;

Список литературы

  1. Koehn P. Europarl: A Parallel Corpus for Statistical Machine Translation // School of Informatics University of Edinburgh, Scotland. 2005. P. 79-86.
  2. Национальный корпус русского языка. URL: https://ruscorpora.ru/search?search=CgkyBwgFEgNlbmcwAQ%3D%3D (дата обращения 04.03.2024)
  3. Brown P. F., Pietra S. A. D., Pietra V. J. D., Mercer R. L. The mathematics of statistical machine translation. Computational Linguistics. 1993. 19(2), p. 263-313.
  4. Philipp Koehn, Franz J. Och, and Daniel Marcu.. Statistical Phrase-Based Translation. In Proceedings of the 2003 Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics. 2003. p. 127-133. URL: https://aclanthology.org/N03-1017.pdf (дата обращения 05.03.2024)
  5. Гудков В. Ю., Гудкова Е.Ф. N-граммы в лингвистике // Вестник ЧелГУ. 2011. № 24.
  6. Лингвистический корпус данных. URL: https://catalog.ldc.upenn.edu/byyear (дата обращения 05.03.2024)
  7. Жданов А. Е., ДоросинскийЛ.Г. Голосовой замок // Ural Radio Engineering Journal. 2017. Vol. 1, No. 1. P. 80-90.
  8. Daniel Torregrosa, Nivranshu Pasricha, Bharathi Raja Chakravarthi, Maraim Masoud, Mihael Arcan. Leveraging Rule-Based Machine Translation Knowledge for Under-Resourced Neural Machine Translation Models // Proceedings of MT Summit XVII, Dublin, 2019, volume 2. URL: https://aclanthology.org/W19-6725.pdf (дата обращения: 19.08.2024).
  9. Peter Т. Systran as a multilingual machine translation system // Overcoming the language barrier, 3-6 May 1977, Vol. 1. URL: https://www.mt-archive.net/70/CEC-1977-Toma.pdf (дата обращения: 19.08.2024).
  10. Salton G., Ross R., and Kelleher J. (2014). An empirical study of the impact of idioms on phrase based statistical machine translation of english to brazilian-portuguese // In Proceedings of the 3rd Workshop on Hybrid Approaches to Machine Translation (HyTra). 2014. P. 36-41.
  11. Luong T., Pham H., Manning C. D. (2015). Effective approaches to attention-based neural machine translation // In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal. 2015. P. 1412-1421.
  12. Koehn P., Hoang H., Birch A., Callison-Burch C., Federico M., Bertoldi N., Cowan B., Shen W., Moran C., Zens R. Moses: Open source toolkit for statistical machine translation // In Proceedings of the 45th annual meeting of the ACL on interactive poster and demonstration sessions. 2007. P. 177-180.
  13. Papineni K., Roukos S., Ward T., and Zhu W.J. Bleu: a method for automatic evaluation of machine translation. In Proceedings of 40th Annual Meeting of the Association for Computational Linguistics, Philadelphia, Pennsylvania, USA. 2002. P. 311-318.
  14. Dyer C., Chahuneau V., and Smith N. A. A simple, fast, and effective reparameterization of ibm model 2 // In Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies Atlanta, Georgia, June. 2013 p. 644-646.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».