Алгоритм построения ассоциативных рядов хештегов для семантической навигации в социальных сетях

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

В социальных сетях хештеги являются важным механизмом семантической навигации по сообщениям пользователей. В данном исследовании мы рассматриваем решение задачи построения ассоциативных рядов хештегов для одной из крупнейших социальных сетей. Эти ряды должны удовлетворять двум критериям: быть короткими и не содержать больших семантических разрывов между последовательными хештегами. Алгоритм, позволяющий создавать ассоциативных рядов хештегов, может использоваться для увеличения количества хештегов в сообщениях, что облегчит семантическую навигацию по сообщениям в социальной сети. Была построена сеть совместной встречаемости хештегов на основе большого набора данных из сообщений Инстаграма1. Для построения ассоциативных рядов было дано формальное определение задачи построения семантического пути как задачи многокритериальной оптимизации на сети совместной встречаемости хештегов в сообещениях. Была разработана общая оптимизационная функция для обоих критериев проблемы построения семантического пути. Для измерения семантической близости между хештегами мы использовали метрику на основе эмбеддингов хештегов, полученных с помощью алгоритма word2vec. Используя эмпирические пути, полученные при помощи различных алгоритмов, были настроены параметры обобщенной оптимизационной функции, которая может использоваться для построения семантических путей с помощью нахождения пути с помощью алгоритма Дейкстры или специальных жадных алгоритмов.

Об авторах

Сергей Вячеславович Макрушин

Финансовый университет при Правительстве Российской Федерации

Email: svmakrushin@fa.ru
кандидат экономических наук; доцент Москва, Российская Федерация

Никита Владимирович Блохин

Финансовый университет при Правительстве Российской Федерации

Email: nvblokhin@fa.ru
ассистент Москва, Российская Федерация

Список литературы

  1. Barzilay R., Elhadad M. Using lexical chains for text summarization. In: Proceedings of the ACL workshop on intelligent scalable text summarization. Madrid, 1997. Pp. 10-17.
  2. Bringmann K., Keusch R., Lengler J. et al. Greedy routing and the algorithmic small-world phenomenon. In: Proceedings of the ACM Symposium on Principles of Distributed Computing. New York, USA, 2017. Pp. 371-380. doi: 10.1145/3087801.3087829.
  3. Capitán J.A., Borge-Holthoefer J., Gómez S. et al. Local-based semantic navigation on a networked representation of information. PLoS ONE. 2012. No. 7 (8). Pp. 1-10. doi: 10.1371/journal.pone.0043694.
  4. Dijkstra E. A note on two problems in connexion with graphs. Numerische Mathematik. 1959. No. 1 (1). Pp. 269-271. doi: 10.1007/BF01386390.
  5. Fellbaum C. WordNet: An electronic lexical database. Language, speech, and communication series. Cambridge: MIT Press, 1998.
  6. Goyal P., Ferrara E. Graph embedding techniques, applications, and performance: A survey. Knowledge Based Systems. 2018. Pp. 89-94. doi: 10.1016/j.knosys.2018.03.022.
  7. Halliday K., Hasan R. Cohesion in English. London: Longman, 1976.
  8. Hart P., Nilsson N.J., Raphael B. A formal basis for the heuristic determination of minimum cost paths. IEEE Trans. Syst. Sci. Cybernetics SSC. 1968. Vol. 4. Pp. 100-107. doi: 10.1109/TSSC.1968.300136.
  9. He L. et al. Neurally-guided semantic navigation in knowledge graph. In: IEEE Transactions on Big Data. 2018. doi: 10.1109/TBDATA.2018.2805363.
  10. Mikolov T., Chen K., Corrado G.K., Dean J. Efficient estimation of word representations in vector space. CoRR, 2013. abs/1301.3781.
  11. Morris J., Hirst G. Lexical cohesion, the thesaurus, and the structure of text.Computational Linguistics. 1991. No. 17 (1). Pp. 21-48.
  12. Neelakantan A., Roth B., McCallum A.Compositional vector space models for knowledge base completion. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing, China. 2015. Pp. 156-166. DOI: 0.3115/v1/P15-1016.
  13. Passant A. Measuring semantic distance on linking data and using it for resources recommendations. AAAI Spring Symposium: Linked Data Meets Artificial Intelligence. 2010. Vol. 77.
  14. Pennington J., Socher R., Manning C. Glove: Global vectors for word representation. EMNLP. 2014. Pp. 1532-1543. doi: 10.3115/v1/D14-1162.
  15. Sommer C. Shortest-path queries in static networks. ACM Computing Surveys. 2014. No. 46 (4). Pp. 1-31. doi: 10.1145/2530531.
  16. West R., Pineau J., Precup D. Wikispeedia: An online game for inferring semantic distances between concepts. In: IJCAI. Morgan Kaufmann Publishers Inc., 2009. Pp. 1598-1603.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».