🔧На сайте запланированы технические работы
25.12.2025 в промежутке с 18:00 до 21:00 по Московскому времени (GMT+3) на сайте будут проводиться плановые технические работы. Возможны перебои с доступом к сайту. Приносим извинения за временные неудобства. Благодарим за понимание!
🔧Site maintenance is scheduled.
Scheduled maintenance will be performed on the site from 6:00 PM to 9:00 PM Moscow time (GMT+3) on December 25, 2025. Site access may be interrupted. We apologize for the inconvenience. Thank you for your understanding!

 

Determining the authorship of the "Notes of the Decembrist I.I. Gorbachevsky" by machine learning methods

Cover Page

Cite item

Full Text

Abstract

In the presented work, the object of research is the "Notes of the Decembrist I.I. Gorbachevsky", which are one of the most valuable sources on the history of the Decembrist movement, created by its participants themselves. They highlight the formation and development of such a Decembrist organization as the Society of United Slavs, which later joined the Southern Society of Decembrists. Written in exile in Siberia, these notes represent not only a source of factual material, but also an original concept of the secret society's development, and a retrospective "inside look" at the mistakes made by the conspirators. However, Gorbachevsky's "Notes" are notable for another circumstance. Contrary to their well-established name in literature, we cannot unequivocally assert that their author was I.I. Gorbachevsky himself from among the Decembrists. The fact is that the first publication of the "Notes" – in the journal "Russian Archive" in 1882 – was presented under the heading "Notes of an Unknown Person from the Society of the United Slavs." The subject of the research in the presented work is the question of the authorship of the "Notes", which has no clear answer among historians today. In this paper, we propose a solution to the problem of determining the authorship of the "Notes of the Decembrist I.I. Gorbachevsky" using machine learning methods. I.I. Gorbachevsky himself, as well as the Decembrist P.I. Borisov, are considered as possible authors. The novelty of the research lies in the fact that machine learning methods were used to determine the authorship of the "Notes". The authors trained four types of models to predict the authorship of each of the sentences in the Notes. As a result, most of the proposals of the "Notes" were assessed as written by Gorbachev. The largest percentage of offers, 69.2%, was attributed to Gorbachev by the Count Vectorizer + SVC model. The accuracy of all models exceeded 80% on average, while those based on BERT coding averaged close to 90%. The main conclusion of the work, therefore, can be considered that the "Notes" were more likely to have been written by I.I. Gorbachevsky than by P.I. Borisov. The methods used in the framework of the presented study provide another argument in favor of this version. The code and dataset are available at the link: https://github.com/WLatonov/Gorbachevskiy_notes .

References

  1. Нечкина М.В. Движение декабристов. [В 2 т.] М.: Изд-во Акад. наук СССР, 1955. Т. 2.
  2. Шатрова Г.П. Декабристы и Сибирь. Томск: Издательство Томского университета, 1962.
  3. Шатрова Г.П. Декабрист И.И. Горбачевский. Красноярск: КГПИ, 1973.
  4. Матханова Н.П. Сибирская мемуаристика XIX века. Новосибирск: Издательство СО РАН, 2010.
  5. Сыроечковский Б.Е., Сокольский Л.А., Порох И.В. Декабрист Горбачевский и его «Записки» // И.И. Горбачевский. Записки; Письма / Изд. подгот. Б.Е. Сыроечковский, Л.А. Сокольский, И.В. Порох. М: Изд-во АН СССР, 1963. С. 257-305.
  6. Мироненко М.П. Мемуарное наследие декабристов в журнале «Русский архив» // Археографический ежегодник за 1975 год. М., 1976. С. 112-114.
  7. Злобин Е.В. К вопросу об авторстве "Записок" декабриста И.И. Горбачевского // История СССР, 1990. № 2. С. 140-155.
  8. Горбачевский Иван Иванович // Большая российская энциклопедия: [в 35 т.] / гл. ред. Ю.С. Осипов. М.: Большая российская энциклопедия, 2004–2017. Т. 7. М., 2007. С. 423-424.
  9. Туманик Е.Н. Роль мемуарного наследия декабристов в научной концепции Г.П. Шатровой // Гуманитарные науки в Сибири, 2020. № 27(4). С. 50-57.
  10. Мартыненко Г. Я., Гребенников А. О. Основы стилеметрии: учеб.-метод. пособие. СПб.: Изд-во С.-Петерб. ун-та, 2018.
  11. Морозов Н.А. Лингвистические спектры: средство для отличения плагиатов от истинных произведений того или иного известного автора. Стилеметрический этюд // Изв. отд. русского языка и словесности Ими. акад. наук. 1915. № 20(4). С. 93-134.
  12. Марков А.А. Об одном применении статистического метода // Изв. Ими. акад. наук. Сер. 6. 1916. № 4. С. 239-242.
  13. Марков А.А. Пример статистического исследования над текстом "Евгения Онегина", иллюстрирующий связь испытаний в цепь // Изв. Имп. акад. наук. Сер. 6. 1913. № 3. С. 153-162.
  14. Хмелёв Д.В. Распознавание автора текста с использованием цепей А.А. Маркова // Вести. МГУ. Сер. 9. Филология. 2000. № 2. С. 115-126.
  15. О. В. Кукушкина, А. А. Поликарпов, Д. В. Хмелёв, Определение авторства текста с использованием буквенной и грамматической информации // Пробл. передачи информ. 2001. № 37(2), 96-109.
  16. Stamatatos P. D. et al. On the robustness of authorship attribution based on character n-gram features // Journal of Law and Policy. 2013. № 21(2). P. 7.
  17. Burrows S., Tahaghoghi S. M. M. Source code authorship attribution using n-grams // Proceedings of the twelth Australasian document computing symposium, Melbourne, Australia, RMIT University, 2007. P. 32-39.
  18. Sapkota U. et al. Not all character n-grams are created equal: A study in authorship attribution // Proceedings of the 2015 conference of the North American chapter of the association for computational linguistics: Human language technologies. 2015. P. 93-102.
  19. Peng F. et al. Language independent authorship attribution with character level n-grams // 10th Conference of the European Chapter of the Association for Computational Linguistics. 2003.
  20. Burrows J. ‘Delta’: a measure of stylistic difference and a guide to likely authorship // Literary and linguistic computing. Oxford University Press. 2002. № 17(3). P. 267-287.
  21. Hoover D. Testing Burrows’ Delta. // Literary and Linguistic Computing. 2004. № 19(4). P. 453-475.
  22. Evert. S., Proisl T., Jannidis F., Reger. I., Pielström S., Schöch C., Vitt T. Understanding and explaining Delta measures for authorship attribution. // Digital Scholarship in the Humanities. 2017. № 32(2). P. 4-16.
  23. Jannidis F. et al. Improving Burrows’ Delta. An empirical evaluation of text distance measures // Digital Humanities Conference. 2015. № 11. P. 10.
  24. Ковалев Б.В. Рождение третьего автора: стилеметрический анализ рассказов Онорио Бустоса Домека // Литература двух Америк. 2024. № 16. С. 120-146.
  25. Бородкин Л.И., Милов Л.В., Морозова Л.Е. К вопросу о формальном анализе авторских особенностей стиля в произведениях Древней Руси // Математические методы в историко-экономических и историко-культурных исследованиях / Отв. ред. И.Д. Ковальченко. М.: Наука. 1977. С. 298-326.
  26. Borodkin L., Milov L. Some Aspects of the Application of Quantitative Methods and Computers in the Analysis of Narrative Texts // Soviet Quantitative History / Ed. by D.K. Rowny. Sage Publications. Beverly Hills/London/New Delhi, 1984.
  27. Милов Л.В., Бородкин Л.И., Иванова Т.В. и др. От Нестора до Фонвизина: Новые методы определения авторства / под ред. Л. В. Милова. М., Прогресс, 1994.
  28. Jockers M. L., Witten D. M. A comparative study of machine learning methods for authorship attribution // Literary and Linguistic Computing. 2010. № 25(2). С. 215-223.
  29. Fix E., Hodges J. L. Discriminatory analysis, nonparametric discrimination // International Statistical Review / Revue Internationale de Statistique. 1989. No. 57(3), P. 233-238
  30. Vapnik V. Support-vector networks // Machine learning. 1995. № 20. P. 273-297.
  31. Boumber D., Zhang Y., Mukherjee A. Experiments with convolutional neural networks for multi-label authorship attribution // Proceedings of the Eleventh International Conference on Language Resources and Evaluation, 2018.
  32. Rosenblatt F. The perceptron: a probabilistic model for information storage and organization in the brain // Psychological review. 1958. № 65(6). P. 386.
  33. Fedotova A. et al. Authorship attribution of social media and literary Russian-language texts using machine learning methods and feature selection // Future Internet. 2021. № 14(1). P. 4.
  34. Hochreiter S. Long Short-term Memory // Neural Computation MIT-Press, 1997.
  35. Kenton J. D. M. W. C., Toutanova L. K. Bert: Pre-training of deep bidirectional transformers for language understanding // Proceedings of naacL-HLT. 2019. № 1. P. 2.
  36. Hosmer D. W. Lemeshow S. Applied Logistic Regression // John Wiley & Sons, 2013.

Supplementary files

Supplementary Files
Action
1. JATS XML


Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».