Применение вычислительных методов корпусного анализа к исследованию текстов литературных произведений

Обложка

Цитировать

Полный текст

Аннотация

Статья посвящена применению математических методов корпусного анализа для исследований литературных текстов русских писателей. Для исследований создан корпус прозаических текстов художественной литературы России XIX века, состоящий из пяти подкорпусов. Каждый подкорпус содержит тексты одного из авторов. На примере созданного корпуса продемонстрированы возможности применения метода анализа соответствий, интегрированного в корпусную платформу TXM в качестве одного из средств статистического метода исследований. В качестве другого метода рассматривается анализ коэффициентов попарной ранговой корреляции для сравнения частотных характеристик текстов различных подкорпусов. Описанные методики дают коррелированные результаты и позволяют констатировать возможность выделения дифференцирующих признаков. Они могут использоваться как для лингвистических исследований, так и создания корректных обучающих текстовых наборов для задач искусственного интеллекта.

Об авторах

Нина Левоновна Аванесян

Национальный исследовательский университет «Высшая школа экономики»

Email: nlavanesyan@edu.hse.ru

Аспирант

Россия, г. Москва

Ольга Вячеславовна Губина

Российский университет дружбы народов им. Патриса Лумумбы

Email: 1032201737@pfur.ru

Студент

Россия, г. Москва

Андрей Михайлович Чеповский

Национальный исследовательский университет «Высшая школа экономики»; Российский университет дружбы народов им. Патриса Лумумбы

Автор, ответственный за переписку.
Email: achepovskiy@hse.ru

Профессор, доктор технических наук

Россия, г. Москва; г. Москва

Список литературы

  1. Лаврентьев А.М., Смирнов И.В., Соловьев Ф.Н., Суворова М.И., Фокина А.И., Чеповский А.М. Анализ корпусов текстов террористической и антиправовой направленности // Вопросы кибербезопасности. 2019. № 4(32). С.54-60. doi: 10.21681/2311-3456-2019-4-54-60.
  2. Лаврентьев А.М., Смирнов И.В., Соловьев Ф.Н., Суворова М.И., Фокина А.И., Чеповский А.М. Создание специальных корпусов текстов на основе расширенной платформы TXM // Системы высокой доступности. 2018. Т.14. № 3. С.76-81.
  3. Аванесян Н.Л., Соловьев Ф.Н., Тихомирова Е.А., Чеповский А.М. Выявление значимых признаков противоправных текстов // Вопросы кибербезопасности. 2020. № 4 (38). С. 76–84. doi: 10.21681/2311-3456-2020-04-76-84
  4. Фокина А.И., Чеповский А.А., Чеповский А.М. Использование платформы TXM корпусного анализа для анализа текстов сообществ социальных сетей // Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2023. Т. 21. № 2. С. 29-38. doi: 10.25205/1818-7900-2023-21-2-29-38.
  5. Аванесян Н.Л., Зенькова В.В., Чеповский А.А., Чеповский А.М. Анализ текстов сообществ социальных сетей // Успехи кибернетики. 2023. 4(2). С. 33–39. doi: 10.51790/2712-9942-2023-4-2-05.
  6. Heiden S. The TXM Platorm: Building Open-Source Textual Analysis Sofware Compatile with the TEI Encoding Scheme. In: 24th Pacific Asia Conference on Language, Information and Computation – PACLIC24 / Ed. by R. Otoguro, K. Ishikawa, H. Umemoto, K. Yoshimoto and Y. Harada. Institute for Digital Enhancement of Cognitive Development. Waseda University, Sendai, Japan.2010. P. 389−398.
  7. TXM public website. [Online] Available from: http://textometrie.org. (Дата обращения 23.01.2024)
  8. Schmid, H. Probabilistic Part-of-Speech Tagging Using Decision Trees. In: Proceedings International Conference on New Methods in Language Processing, Manchester, UK, Sept. 1994. P. 44–49.
  9. Лаврентьев А.М., Соловьев Ф.Н., Чеповский А.М. Внедрение в TXM дополнительных инструментов автоматической обработки текста. В кн.: Труды международной конференции «Корпусная лингвистика – 2019». СПб.: Издательство Санкт-Петербургского университета. 2019. С. 55-62.
  10. Benzécri J.-P., Bellier L. L’analyse des données. V. 2:L’analyse des Correspondances. Paris: Dunod. 1976. 616 p.
  11. Lê S., Josse J., Husson F. FactoMineR:an R package for multivariate analysis // Journal of statistical software.2008. № 25 (1). P. 1-18.
  12. Чеповский А.М. Информационные модели в задачах обработки текстов на естественных языках. Второе издание, переработанное. М.: Национальный открытый университет «ИНТУИТ». 2015. 228 c.
  13. Lavrentiev A., Sherstinova T., Chepovskiy A., Pincemin B. Using TXM Platform for Research on Language Changes over Time: The Dynamics of Vocabulary and Punctuation in Russian Literary Texts // Вестник Томского государственного университета. Филология. 2021. № 70. С. 69-89. doi: 10.17223/19986645/70/5.
  14. Прикладная статистика: Классификации и снижение размерности / С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин / Под ред. С.А. Айвазяна. М.: Финансы и стати- стика. 1989. 607 с.
  15. Бендат Дж., Пирсол А. Прикладной анализ случайных данных. М.: Мир. 1989. 540 с.
  16. Деза Е.И., Деза М.М. Энциклопедический сло- варь расстояний. М.: Наука. 2008. 444 с.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».