Двухступенчатая семантическая кластеризация эмбеддингов как альтернатива LDA для инфометрического анализа отраслевых новостей

Обложка

Цитировать

Полный текст

Аннотация

Предметом исследования является разработка и валидация альтернативного подхода к тематическому моделированию текстов, направленного на преодоление ограничений классического латентного размещения Дирихле (LDA). Объектом исследования выступают короткие русскоязычные новостные тексты об атомной энергетике, представленные в виде корпуса «AtomicNews». Авторы подробно рассматривают такие аспекты темы, как влияние разреженности на качество тематического моделирования, проблемы интерпретируемости тем и ограничения априорной фиксации числа тем. Особое внимание уделяется геометрической интерпретации семантики текстов, в частности, преобразованию лексических единиц в пространство предобученных эмбеддингов и последующей кластеризации с целью формирования документных тематических профилей. Исследование фокусируется на сравнительном анализе нового метода и LDA по метрикам когерентности, перплексии и тематического разнообразия. Предлагаемый подход направлен на создание интерпретируемой, вычислительно лёгкой и устойчивой к шуму модели, пригодной для онлайнового мониторинга новостных потоков. Методология исследования основана на двухступенчатом семантическом сглаживании – эмбеддинг-репрезентации лемм с помощью Sentence-BERT и агломеративной косинусной кластеризации с последующим применением K-means к тематическим профилям документов. Научная новизна исследования заключается в разработке и эмпирическом обосновании схемы тематического моделирования, заменяющей вероятностную генерацию слов на геометрическое сглаживание эмбеддингов. Предложенный подход отказывается от предпосылок «мешка слов» и фиксированного числа тем, формируя тематические координаты документов через плотностные кластеры в семантическом пространстве. Это позволяет повысить интерпретируемость тем, снизить чувствительность к разреженности текстов и избежать коллапса распределения тем в коротких сообщениях. Эксперименты на корпусе «AtomicNews» показали статистически значимое улучшение по сравнению с классической LDA: снижение перплексии на 5 %, рост когерентности тем на 0.15 пункта и увеличение тематического разнообразия. Метод также продемонстрировал вычислительную эффективность – вся процедура занимает секунды на CPU, что делает его пригодным для применения в условиях ограниченных ресурсов. Таким образом, переход от вероятностной декомпозиции к геометрическому анализу эмбеддингов представляет собой перспективное направление в тематическом моделировании отраслевых текстов.

Об авторах

Евгений Александрович Конников

Санкт-Петербургский политехнический университет Петра Великого

Email: konnikov.evgeniy@gmail.com
доцент; институт промышленного менеджмента, экономики и торговли;

Дарья Александровна Крыжко

Санкт-Петербургский политехнический университет Петра Великого

Email: darya.kryz@yandex.ru
доцент; институт промышленного менеджмента, экономики и торговли;

Список литературы

  1. Alattar F., Shaalan K. Emerging research topic detection using filtered-lda // AI. – 2021. – Т. 2. – № 4. – С. 578-599.
  2. Kim M., Kim D. A suggestion on the LDA-Based topic modeling technique based on ElasticSearch for Indexing Academic Research Results // Applied Sciences. – 2022. – Т. 12. – № 6. – С. 3118.
  3. Qiu M. et al. A topic modeling based on prompt learning // Electronics. – 2024. – Т. 13. – № 16. – С. 3212.
  4. Ogunleye B. et al. Comparison of topic modelling approaches in the banking context // Applied Sciences. – 2023. – Т. 13. – № 2. – С. 797.
  5. Vargas C., Ponce H. Recurrent embedded topic model // Applied Sciences. – 2023. – Т. 13. – № 20. – С. 11561.
  6. Krasnov F., Sen A. The number of topics optimization: Clustering approach // Machine Learning and Knowledge Extraction. – 2019. – Т. 1. – № 1. – С. 25.
  7. Williams L. et al. Topic modelling: Going beyond token outputs // Big Data and Cognitive Computing. – 2024. – Т. 8. – № 5. – С. 44. doi: 10.3390/bdcc8050044 EDN: WGBWYP
  8. Родионов Д. Г. и др. Автоматизированный алгоритм квантификации наиболее вероятного значения региона профессионального становления представителя научно-исследовательского коллектива для целей калькулирования коэффициента мультикультурализма // Экономические науки. – 2021. – № 202. – С. 154-163. doi: 10.14451/1.202.154 EDN: LETTFT
  9. Murakami R., Chakraborty B. Investigating the efficient use of word embedding with neural-topic models for interpretable topics from short texts // Sensors. – 2022. – Т. 22. – № 3. – С. 852. doi: 10.3390/s22030852 EDN: GXMHBG
  10. Koltcov S. et al. Analyzing the influence of hyper-parameters and regularizers of topic modeling in terms of renyi entropy // Entropy. – 2020. – Т. 22. – № 4. – С. 394. doi: 10.3390/E22040394 EDN: KXJCBE
  11. Родионов Д. Г. и др. Тематическое моделирование информационной среды медиакомпаний: инструментальный комплекс LDA-TF-IDF // Мягкие измерения и вычисления. – 2024. – Т. 76, № 3. – С. 72-84. doi: 10.36871/2618-9976.2024.03.006 EDN: COCJYG
  12. Конников Е. А. и др. Методическая детализация процесса моделирования свойств сущностно-содержательного посыла, кодируемого в форме символьных конструктов данных // Экономический вестник. – 2024. – Т. 3, № 2. – С. 8-18.
  13. Cheng H. et al. A neural topic modeling study integrating SBERT and data augmentation // Applied Sciences. – 2023. – Т. 13. – № 7. – С. 4595.
  14. Qiu M. et al. A topic modeling based on prompt learning // Electronics. – 2024. – Т. 13. – № 16. – С. 3212.
  15. Um T., Kim N. A study on performance enhancement by integrating neural topic attention with transformer-based language model // Applied Sciences. – 2024. – Т. 14. – № 17. – С. 7898.
  16. Nanyonga A. et al. Does the Choice of Topic Modeling Technique Impact the Interpretation of Aviation Incident Reports? A Methodological Assessment // Technologies. – 2025. – Т. 13. – № 5. – С. 209.
  17. Родионов Д. Г., Карпенко П. А., Пашинина П. А. Квантификация информационной среды как инструмент инвестиционного анализа // Экономические науки. – 2021. – № 204. – С. 144-153. doi: 10.14451/1.204.144 EDN: FOZMSH
  18. Марков А. К. и др. Сравнительный анализ применяемых технологий обработки естественного языка для улучшения качества классификации цифровых документов // International Journal of Open Information Technologies. – 2024. – Т. 12. – № 3. – С. 66-77. EDN: TUBOSI
  19. Pais N., Ravishanker N., Rajasekaran S. Supervised Dynamic Correlated Topic Model for Classifying Categorical Time Series // Algorithms. – 2024. – Т. 17. – № 7. – С. 275. doi: 10.3390/a17070275 EDN: JFXYZW
  20. Farkhod A. et al. LDA-based topic modeling sentiment analysis using topic/document/sentence (TDS) model // Applied Sciences. – 2021. – Т. 11. – № 23. – С. 11091.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».