🔧На сайте запланированы технические работы
25.12.2025 в промежутке с 18:00 до 21:00 по Московскому времени (GMT+3) на сайте будут проводиться плановые технические работы. Возможны перебои с доступом к сайту. Приносим извинения за временные неудобства. Благодарим за понимание!
🔧Site maintenance is scheduled.
Scheduled maintenance will be performed on the site from 6:00 PM to 9:00 PM Moscow time (GMT+3) on December 25, 2025. Site access may be interrupted. We apologize for the inconvenience. Thank you for your understanding!

 

Определение авторства «Записок декабриста И.И. Горбачевского» методами машинного обучения

Обложка

Цитировать

Полный текст

Аннотация

В представленной работе объектом исследования являются «Записки декабриста И.И. Горбачевского» – яркий образец декабристской мемуаристики, несущий отпечаток исторического самосознания участников движения. Данный источник предлагает ценные сведения о перипетиях взаимоотношений между участниками таких декабристских организаций, как Общество соединенных славян и Южное общество, содержит взгляд изнутри на ход и причины поражения восстания Черниговского полка, предоставляет фактологический материал о судьбе заговорщиков после суда над ними и отправки в Сибирь. Вместе с тем, начавшись еще в советской историографии, по сей день остается до конца не завершенным спор об авторстве этих "Записок": фигура декабриста Горбачевского в качестве автора рядом исследователей считается чисто номинальной. Вполне очевидно при этом, что личность автора определяет специфику изложенных в "Записках" суждений и привносит в изложение неизбежный субъективный налет, а потому должна приниматься во внимание при работе с источником. Предметом исследования в представленной работе, таким образом, является не разрешенный до сих пор вопрос об авторстве «Записок». Авторами предложено решение задачи определения авторства «Записок декабриста И.И. Горбачевского» при помощи методов машинного обучения. В качестве возможных авторов рассмотрен сам И.И. Горбачевский, а также декабрист П.И. Борисов. Новизна исследования заключается в том, что для определения авторства «Записок» были применены методы машинного обучения. Авторы обучили четыре типа моделей для предсказания авторства каждого из предложений «Записок». В результате большинство предложений «Записок» были оценены, как написанные Горбачевским. Наибольший процент предложений, 69.2 %, был отнесён к Горбачевскому моделью Count Vectorizer + SVC. Точность всех моделей в среднем превышала 80 %, а у основанных на кодировании при помощи BERT в среднем была близка к 90 %. Основным выводом работы, таким образом, можно считать, что «Записки» более вероятно были написаны И.И. Горбачевским, чем П.И. Борисовым. Примененные в рамках представленного исследования методы дают еще один аргумент в пользу этой версии. Код и датасет доступны по ссылке: https://github.com/WLatonov/Gorbachevskiy_notes .

Об авторах

Василий Васильевич Латонов

ПАО «Сбербанк»

Email: WLatonov@gmail.com
ORCID iD: 0000-0002-7810-8033
Руководитель направления по исследованию данных;

Анастасия Вячеславовна Латонова

Email: iskrenne_vasha_aa@mail.ru
независимый исследователь

Список литературы

  1. Нечкина М.В. Движение декабристов. [В 2 т.] М.: Изд-во Акад. наук СССР, 1955. Т. 2.
  2. Шатрова Г.П. Декабристы и Сибирь. Томск: Издательство Томского университета, 1962.
  3. Шатрова Г.П. Декабрист И.И. Горбачевский. Красноярск: КГПИ, 1973.
  4. Матханова Н.П. Сибирская мемуаристика XIX века. Новосибирск: Издательство СО РАН, 2010.
  5. Сыроечковский Б.Е., Сокольский Л.А., Порох И.В. Декабрист Горбачевский и его «Записки» // И.И. Горбачевский. Записки; Письма / Изд. подгот. Б.Е. Сыроечковский, Л.А. Сокольский, И.В. Порох. М: Изд-во АН СССР, 1963. С. 257-305.
  6. Мироненко М.П. Мемуарное наследие декабристов в журнале «Русский архив» // Археографический ежегодник за 1975 год. М., 1976. С. 112-114.
  7. Злобин Е.В. К вопросу об авторстве "Записок" декабриста И.И. Горбачевского // История СССР, 1990. № 2. С. 140-155.
  8. Горбачевский Иван Иванович // Большая российская энциклопедия: [в 35 т.] / гл. ред. Ю.С. Осипов. М.: Большая российская энциклопедия, 2004–2017. Т. 7. М., 2007. С. 423-424.
  9. Туманик Е.Н. Роль мемуарного наследия декабристов в научной концепции Г.П. Шатровой // Гуманитарные науки в Сибири, 2020. № 27(4). С. 50-57.
  10. Мартыненко Г. Я., Гребенников А. О. Основы стилеметрии: учеб.-метод. пособие. СПб.: Изд-во С.-Петерб. ун-та, 2018.
  11. Морозов Н.А. Лингвистические спектры: средство для отличения плагиатов от истинных произведений того или иного известного автора. Стилеметрический этюд // Изв. отд. русского языка и словесности Ими. акад. наук. 1915. № 20(4). С. 93-134.
  12. Марков А.А. Об одном применении статистического метода // Изв. Ими. акад. наук. Сер. 6. 1916. № 4. С. 239-242.
  13. Марков А.А. Пример статистического исследования над текстом "Евгения Онегина", иллюстрирующий связь испытаний в цепь // Изв. Имп. акад. наук. Сер. 6. 1913. № 3. С. 153-162.
  14. Хмелёв Д.В. Распознавание автора текста с использованием цепей А.А. Маркова // Вести. МГУ. Сер. 9. Филология. 2000. № 2. С. 115-126.
  15. О. В. Кукушкина, А. А. Поликарпов, Д. В. Хмелёв, Определение авторства текста с использованием буквенной и грамматической информации // Пробл. передачи информ. 2001. № 37(2), 96-109.
  16. Stamatatos P. D. et al. On the robustness of authorship attribution based on character n-gram features // Journal of Law and Policy. 2013. № 21(2). P. 7.
  17. Burrows S., Tahaghoghi S. M. M. Source code authorship attribution using n-grams // Proceedings of the twelth Australasian document computing symposium, Melbourne, Australia, RMIT University, 2007. P. 32-39.
  18. Sapkota U. et al. Not all character n-grams are created equal: A study in authorship attribution // Proceedings of the 2015 conference of the North American chapter of the association for computational linguistics: Human language technologies. 2015. P. 93-102.
  19. Peng F. et al. Language independent authorship attribution with character level n-grams // 10th Conference of the European Chapter of the Association for Computational Linguistics. 2003.
  20. Burrows J. ‘Delta’: a measure of stylistic difference and a guide to likely authorship // Literary and linguistic computing. Oxford University Press. 2002. № 17(3). P. 267-287.
  21. Hoover D. Testing Burrows’ Delta. // Literary and Linguistic Computing. 2004. № 19(4). P. 453-475.
  22. Evert. S., Proisl T., Jannidis F., Reger. I., Pielström S., Schöch C., Vitt T. Understanding and explaining Delta measures for authorship attribution. // Digital Scholarship in the Humanities. 2017. № 32(2). P. 4-16.
  23. Jannidis F. et al. Improving Burrows’ Delta. An empirical evaluation of text distance measures // Digital Humanities Conference. 2015. № 11. P. 10.
  24. Ковалев Б.В. Рождение третьего автора: стилеметрический анализ рассказов Онорио Бустоса Домека // Литература двух Америк. 2024. № 16. С. 120-146.
  25. Бородкин Л.И., Милов Л.В., Морозова Л.Е. К вопросу о формальном анализе авторских особенностей стиля в произведениях Древней Руси // Математические методы в историко-экономических и историко-культурных исследованиях / Отв. ред. И.Д. Ковальченко. М.: Наука. 1977. С. 298-326.
  26. Borodkin L., Milov L. Some Aspects of the Application of Quantitative Methods and Computers in the Analysis of Narrative Texts // Soviet Quantitative History / Ed. by D.K. Rowny. Sage Publications. Beverly Hills/London/New Delhi, 1984.
  27. Милов Л.В., Бородкин Л.И., Иванова Т.В. и др. От Нестора до Фонвизина: Новые методы определения авторства / под ред. Л. В. Милова. М., Прогресс, 1994.
  28. Jockers M. L., Witten D. M. A comparative study of machine learning methods for authorship attribution // Literary and Linguistic Computing. 2010. № 25(2). С. 215-223.
  29. Fix E., Hodges J. L. Discriminatory analysis, nonparametric discrimination // International Statistical Review / Revue Internationale de Statistique. 1989. No. 57(3), P. 233-238
  30. Vapnik V. Support-vector networks // Machine learning. 1995. № 20. P. 273-297.
  31. Boumber D., Zhang Y., Mukherjee A. Experiments with convolutional neural networks for multi-label authorship attribution // Proceedings of the Eleventh International Conference on Language Resources and Evaluation, 2018.
  32. Rosenblatt F. The perceptron: a probabilistic model for information storage and organization in the brain // Psychological review. 1958. № 65(6). P. 386.
  33. Fedotova A. et al. Authorship attribution of social media and literary Russian-language texts using machine learning methods and feature selection // Future Internet. 2021. № 14(1). P. 4.
  34. Hochreiter S. Long Short-term Memory // Neural Computation MIT-Press, 1997.
  35. Kenton J. D. M. W. C., Toutanova L. K. Bert: Pre-training of deep bidirectional transformers for language understanding // Proceedings of naacL-HLT. 2019. № 1. P. 2.
  36. Hosmer D. W. Lemeshow S. Applied Logistic Regression // John Wiley & Sons, 2013.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».