Мера косинусного сходства для обработки неоконченных предложений (на примере изучения образа патриота)

Обложка

Цитировать

Полный текст

Аннотация

В условиях интенсивного развития науки об обработке естественного языка возникает вопрос об интеграции инновационных технологий в рабочие процессы социологов. Социальные учёные нередко сталкиваются с необходимостью обработки текстовых данных, полученных как в рамках собственных исследовательских проектов, так и в сети интернет. Очевидно, что использование в качестве базы данных доступных онлайн-источников выдвигает повышенные требования к техникам и процедурам обработки корпуса документов огромного объёма, нередко превышающего несколько сот тысяч строк. Однако не остаётся за рамками внимания работа с материалами авторских социологических исследований гораздо меньшего объёма, которые часто требуют значительных трудовых и временны́х ресурсов, если их обрабатывать вручную. В этом случае возникает проблема согласованности кодирования текстов группой исследователей, где особую роль играет субъективное мнение специалистов при обобщении или группировке данных. В статье показаны возможности и ограничения использования меры косинусного сходства для анализа текстовых данных, полученных методом неоконченных предложений. Эмпирической базой исследования послужили материалы, полученные в ходе изучения образа патриота в одном из московских вузов в марте 2025 г. Всего в исследовании приняло участие 70 студентов. В работе представлена обработка ответов на стимульное предложение, которое респондентам нужно было завершить своими словами: «Патриот всегда…». Результаты расчёта меры косинусного сходства показали, что данная метрика может выступать полезным инструментом в первичном поиске близких по содержательному контенту утверждений. В случае сомнений и необходимости проверки выводов или решения проблемы согласованности коллективного кодирования использование меры семантической близости может выступить в качестве значимого дополнительного количественного показателя для определения тематической направленности высказывания каждого из респондентов. Так, применяя оценку косинусного сходства, можно сгруппировать тексты, наиболее близкие по семантической нагрузке, тем самым приближая к пониманию общей структуры изучаемого образа и тезауруса участников исследования. В заключении делается вывод о современных требованиях к подготовке специалистов социально-гуманитарного профиля, что порождает новые методологические вопросы и открывает дискуссии об оптимальной интеграции технологических достижений в области обработки естественного языка в аналитические практики социальных учёных и исследователей.

Об авторах

Антонина Николаевна Пинчук

РЭУ имени Г. В. Плеханова

Email: antonina.pinchuk27@bk.ru
ORCID iD: 0000-0001-7842-7141
SPIN-код: 7853-0878
ResearcherId: J-8648-2018
кандидат социологических наук, доцент Москва, Россия

Дмитрий Андреевич Тихомиров

РЭУ имени Г. В. Плеханова

Email: dat1983@yandex.ru
ORCID iD: 0000-0002-1872-6788
SPIN-код: 3369-3077
ResearcherId: AAS-4884-2021
кандидат социологических наук, доцент Москва, Россия

Егор Васильевич Вахненко

РЭУ имени Г. В. Плеханова

Email: egor.vakhnenko@mail.ru
SPIN-код: 2707-9952
Студент Москва, Россия

Список литературы

  1. Бызов А. А. Интеллектуальный анализ текстов в социальных науках // Социология: методология, методы, математическое моделирование (Социология: 4М). 2019. № 49. С. 131–160. EDN GCIIVL.
  2. Hampton K. N. Studying the Digital: Directions and Challenges for Digital Methods // Annual Review of Sociology. 2017. № 43 (1). P. 167–188. doi: 10.1146/annurevsoc-060116-053505.
  3. Пузанова Ж. В. «Одиночество» как предмет эмпирического анализа // Социология: методология, методы, математическое моделирование (Социология: 4М). 2009. № 29. С. 132–154. EDN KNOYNZ.
  4. Зубова О. Г. Проективные методики в социологических исследованиях: теория и практика // Вестник Московского университета. Серия 18. Социология и политология. 2023. № 29 (1). С. 194–218. doi: 10.24290/1029-3736-2023-29-1-194-218. EDN RUIPJM.
  5. Татарова Г. Г. Основы типологического анализа в социологических исследованиях. М. : Высшее Образование и Наука, 2007. 236 с. ISBN 5-94084-047-7. EDN QOGTDB.
  6. Троцук И. В., Субботина М. В. «Ядро» и «периферия» понятий «счастье» и «справедливость»: метод неоконченных предложений как инструмент валидизации // Вестник РУДН. Серия: Социология. 2022. Т. 22, № 4. С. 782–801. doi: 10.22363/23132272-2022-22-4-782-801. EDN TAPIWN.
  7. Климова С. Г. Опыт использования методики неоконченных предложений в социологическом исследовании // Социология: методология, методы, математические модели (Социология: 4М). 1995. № 5-6. С. 49–64. EDN PFTWHV.
  8. Ольшанский В. Б. Становление метода неоконченных предложений в Советском Союзе 70-х гг. // Социология: методология, методы, математические модели (Социология: 4М). 1997. № 9. С. 82–97. EDN PFTWRB.
  9. Татарова Г. Г., Бурлов А. В. Метод неоконченных предложений в изучении образа («культурный человек») // Социология: методология, методы, математическое моделирование (Социология: 4М). 1997. № 9. С. 5–31. EDN PFTWPN.
  10. Татарова Г. Г., Бурлов А. В. Логическая организация анализа данных, полученных методом неоконченных предложений // Социологические исследования. 1999. № 8. С. 123–133. EDN SNBITP.
  11. Бурлов А. В. Метод неоконченных предложений в социологии: стратегии использования и логика анализа данных : дис. ...канд. соцол. наук : 22.00.01 / Бурлов Антон Вячеславович. М. : ИС РАН, 2001. 179 с. EDN QDMELN.
  12. Тихомиров Д. А., Новицкая К. В. Представления молодёжи Москвы о гендерных ролях и характеристиках современной женщины // Горизонты гуманитарного знания. 2018. № 3. С. 90–102. doi: 10.17805/ggz.2018.3.6. EDN VMKDDA.
  13. Сикевич З. В., Фёдорова А. А. «Мы – русские» (ассоциативные этнические образы молодых петербуржцев) // Социологическая наука и социальная практика. 2019. Т. 7, № 3 (27). С. 40–56. doi: 10.19181/snsp.2019.7.3.6688. EDN CPKOVO.
  14. Субботина М. В. Применение метода неоконченных предложений в изучении понятий со сложными коннотациями: концептуализация героизма и справедливости // Общество: социология, психология, педагогика. 2021. № 5 (85). С. 88–96. doi: 10.24158/spp.2021.5.15. EDN EXIGEF.
  15. Бубнов А. Ю., Савельева М. А. Память о Великой Отечественной войне: сравнительный анализ взглядов российской и белорусской молодёжи // Наука. Общество. Оборона. 2021. Т. 9, № 2 (27). С. 13. doi: 10.24412/2311-1763-2021-2-13-13. EDN VCTHOA.
  16. Савенкова А. С., Субботина М. В. Возможности метода неоконченных предложений в изучении «культуры отмены» // Вестник РУДН. Серия: Социология. 2024. Т. 24, № 3. С. 660–683. doi: 10.22363/2313-2272-2024-24-3-660-683. EDN DXLFCJ.
  17. Татарова Г. Г., Чиркова А. В. Здоровьесберегающее поведение молодёжи: формирование типообразующих признаков методом неоконченных предложений // Социологическая наука и социальная практика. 2024. Т. 12, № 1. С. 25–61. doi: 10.19181/snsp.2024.12.1.2. EDN GWRDZA.
  18. Сикевич З. В. Опыт применения процедуры неоконченных предложений в социологическом исследовании // Вестник Санкт-Петербургского университета. Социология. 2019. Т. 12, № 4. С. 317–328. doi: 10.21638/spbu12.2019.402. EDN XKAFTS.
  19. Андриевская Н. К. Гибридная интеллектуальная мера оценки семантической близости // Проблемы искусственного интеллекта. 2021. № 1 (20). С. 4–17. EDN ZDZKGK.
  20. Меры семантической близости в онтологии / К. В. Крюков, Л. А. Панкова, В. А. Пронина [и др.] // Проблемы управления. 2010. № 5. С. 2–14. EDN MUVNSP.
  21. Бермудес С. Х. Г. Метод измерения семантического сходства текстовых документов // Известия ЮФУ. Технические науки. 2017. № 3 (188). С. 17–29. doi: 10.23683/23113103-2017-3-17-29. EDN ZDHXJR.
  22. Белова К. М., Судаков В. А. Исследование эффективности методов оценки релевантности текстов // Препринты ИПМ им. М. В. Келдыша. 2020. № 68. С. 1–16. doi: 10.20948/prepr-2020-68. EDN CYCEWZ.
  23. Рассел М., Классен М. Data Mining. Извлечение информации из Facebook, Twitter, LinkedIn, Instagram, GitHub. СПб. : Питер, 2020. 464 с. ISBN 978-5-4461-1246-3.
  24. Sarika K., Vijay Kumar A., Vijay R. Beyond Text: Exploring Multimodal BERT Models // Journal of Computer Science Applications and Information Technology. 2025. № 10 (1). P. 1–6. doi: 10.15226/2474-9257/10/1/00164.
  25. BERT applications in natural language processing: a review / N. M. Gardazi, A. Daud, M. K. Malik [et al.] // Artif Intell Rev. 2025. Vol. 58. № 166. doi: 10.1007/s10462-02511162-5.
  26. Semantic Textual Similarity in Japanese Clinical Domain Texts Using BERT / F. W. Mutinda, Sh. Yada, Sh. Wakamiya, E. Aramaki // Methods of Information in Medicine. 2021. Т. 60, № S01. Р. e56–64. doi: 10.1055/s-0041-1731390. EDN QQSZZL.
  27. Syaifudin M. F., Adiatmaja G., Hidayaturrohman B. Calculation of Similarity between MUI Fatwas: A Comparison of Text Extraction Features and String Matching Algorithms // Halal Research Journal (HRJ). 2025. Vol. 5, № 1. Р. 1–13. doi: 10.12962/j22759970. v5i1.1226. EDN SWVYVB.
  28. Пузанова Ж. В., Тертышникова А. Г. Метод неоконченных предложений в исследовании социальных представлений (на примере образа террориста) // Tеория и практика общественного развития. 2015. № 4. С. 12–15. EDN TKAMQH.
  29. Пинчук А. Н., Тихомиров Д. А. Образ коррупционера в восприятии российской молодёжи: применение метода неоконченных предложений // Вестник Института социологии. 2019. Т. 10, № 2. С. 12–27. doi: 10.19181/vis.2019.29.2.573. EDN UFIZXB.
  30. Желизнык М. Н. Опыт использования метода неоконченных предложений в изучении образов «героя» и «антигероя» нашего времени // Мониторинг общественного мнения: экономические и социальные перемены. 2024. № 1 (179). С. 257–275. doi: 10.14515/monitoring.2024.1.2460. EDN TKBIIJ.
  31. Пинчук А. Н., Карепова С. Г., Тихомиров Д. А. Технологии Text Mining в социологическом анализе (на примере изучения представлений студентов о миссии современного вуза) // Социологическая наука и социальная практика. 2024. Т. 12, № 1. С. 62–79. doi: 10.19181/snsp.2024.12.1.3. EDN LOUOJW.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».