Сравнение автоматического обобщения текстов на русском языке

Обложка

Цитировать

Полный текст

Аннотация

Предметом исследования в данной статье является обобщение текстов на русском языке с использованием моделей искусственного интеллекта. В частности, авторы сравнивают популярные модели GigaChat, YaGPT2, ChatGPT-3.5, ChatGPT-4, Bard, Bing AI и YouChat и проводят сравнительное исследование их работы на текстах русского языка. В качестве исходных материалов для последующего обобщения в статье берутся наборы данных для русского языка, такие как Gazeta, XL-Sum и WikiLingua, а также для сравнения эффективности обобщения были взяты дополнительные наборы данных на английском языке CNN Dailymail и XSum. В статье применяются показатели: ROUGE, BLEU score, BERTScore, METEOR и BLEURT для оценки обобщения текстов.  В данной статье в качестве метода исследования используется сравнительный анализ данных, полученных в ходе автоматического обобщения с помощью моделей искусственного интеллекта. Научная новизна исследования заключается в проведении сравнительного анализа качества автоматического обобщения текстов на русском и английском языках с использованием различных нейросетевых моделей обработки естественного языка. Авторы исследования привлекли внимание к новым моделям GigaChat, YaGPT2, ChatGPT-3.5, ChatGPT-4, Bard, Bing AI и YouChat, рассматривая и анализируя их эффективность в задаче обобщения текста. Итоги обобщения на русском языке показывают, что YouChat демонстрирует самые высокие результаты по совокупности оценок, подчеркивая эффективность модели в обработке и генерации текста с более точным воспроизведением ключевых элементов содержания. В отличие от YouChat, модель Bard показала наихудшие результаты, представляя собой модель с наименьшей способностью к генерации связного и релевантного текста.

Об авторах

Александр Евгеньевич Дагаев

Московский политехнический университет

Email: alejaandro@bk.ru
аспирант; кафедра «Информатика и информационные технологии»;

Дмитрий Иванович Попов

Сочинский государственный университет

Email: damitry.popov@gmail.com
профессор; кафедра Информационных технологий и математики;

Список литературы

  1. Goyal T., Li J. J., Durrett G. News summarization and evaluation in the era of gpt-3 //arXiv preprint arXiv:2209.12356. – 2022.
  2. Zhang T. et al. Benchmarking large language models for news summarization //arXiv preprint arXiv:2301.13848. – 2023.
  3. Gusev I. Dataset for automatic summarization of Russian news //Artificial Intelligence and Natural Language: 9th Conference, AINL 2020, Helsinki, Finland, October 7–9, 2020, Proceedings 9. – Springer International Publishing, 2020. – С. 122-134.
  4. Lin C. Y. Rouge: A package for automatic evaluation of summaries //Text summarization branches out. – 2004. – С. 74-81.
  5. Post M. A call for clarity in reporting BLEU scores //arXiv preprint arXiv:1804.08771. – 2018.
  6. Bhaskar A., Fabbri A., Durrett G. Prompted opinion summarization with GPT-3.5 //Findings of the Association for Computational Linguistics: ACL 2023. – 2023. – С. 9282-9300.
  7. Tang L. et al. Evaluating large language models on medical evidence summarization //npj Digital Medicine. – 2023. – Т. 6. – №. 1. – С. 158.
  8. Hendy A. et al. How good are gpt models at machine translation? a comprehensive evaluation //arXiv preprint arXiv:2302.09210. – 2023.
  9. Jiao W. et al. Is ChatGPT a good translator? Yes with GPT-4 as the engine //arXiv preprint arXiv:2301.08745. – 2023.
  10. Narayan S., Cohen S. B., Lapata M. Don't give me the details, just the summary! topic-aware convolutional neural networks for extreme summarization //arXiv preprint arXiv:1808.08745. – 2018.
  11. Nallapati R. et al. Abstractive text summarization using sequence-to-sequence rnns and beyond //arXiv preprint arXiv:1602.06023. – 2016.
  12. Hasan T. et al. XL-sum: Large-scale multilingual abstractive summarization for 44 languages //arXiv preprint arXiv:2106.13822. – 2021.
  13. Zhang T. et al. Bertscore: Evaluating text generation with bert //arXiv preprint arXiv:1904.09675. – 2019.
  14. Banerjee S., Lavie A. METEOR: An automatic metric for MT evaluation with improved correlation with human judgments //Proceedings of the acl workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization. – 2005. – С. 65-72.
  15. Sellam T., Das D., Parikh A. P. BLEURT: Learning robust metrics for text generation //arXiv preprint arXiv:2004.04696. – 2020.
  16. Ladhak F. et al. WikiLingua: A new benchmark dataset for cross-lingual abstractive summarization //arXiv preprint arXiv:2010.03093. – 2020.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).