Обнаружение депрессии среди пользователей социальной сети с использованием методов машинного обучения

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

Статистические данные, представленные ФГБУ «НМИЦПН им. В.П. Сербского» Минздрава России, указывают на то, что депрессия, как психоэмоциональное состояние, является основной причиной беспокойства во всем мире, которая в большинстве случаев приводит к самоубийству, если ее не выявить, и к угрозе окружающим. Исследования показывают, что депрессия, как правило, оказывает влияние на стиль письма и соответствующее использование языка. Основной целью предлагаемого исследования является изучение сообщений пользователей в социальной сети ВКонтакте и определения атрибутов, которые могут указывать на депрессивные симптомы пользователей. В статье используются подходы машинного обучения (логистическая регрессия, случайный лес, машина опорных векторов, XGBoost) и методы обработки естественного языка (удаление стоп-слов, удаление символов, токенизация, лемматизация) для подготовки данных и оценки их эффективности. В работе было продемонстрировано, что возможность поиска депрессивных пользователей с точностью 77% с помощью классификатора XGBoost. Этот метод комбинируется с другими лингвистическими функциями (N-грамм + TF-IDF) и LDA для достижения более высокой точности. В заключительной части данной научной публикации представлены существенные результаты, полученные в ходе проведенных исследовательских работ.

Об авторах

Алена Александровна Зоткина

Пензенский государственный технологический университет

Автор, ответственный за переписку.
Email: alena.zotkina.97@mail.ru
ORCID iD: 0000-0002-2497-6433

аспирант 4-го года обучения кафедры «Программирование»

Россия, Пенза

Алексей Иванович Мартышкин

Пензенский государственный технологический университет

Email: mai@penzgtu.ru
ORCID iD: 0000-0002-3358-4394

кандидат технических наук, доцент; заведующий кафедрой «Программирование»

Россия, Пенза

Список литературы

  1. Abboute A., Boudjeriou Y., Entringer G. et al. Mining Twitter for suicide prevention. In: Natural language processing and information systems. NLDB 2014. Lecture notes in computer science. E. Métais, M. Roche, M. Teisseire (eds.). Vol. 8455. Cham: Springer, 2014. Pp. 250–253. DOI: https://doi.org/10.1007/978-3-319-07983-7_36
  2. Chattopadhyay S. A study on suicidal risk analysis. 9th International Conference on e-Health Networking, Application and Services. Taipei: IEEE, 2007. Pp. 74–78.
  3. Coppersmith G., Ngo K., Leary R., Wood A. Exploratory analysis of social media prior to a suicide attempt. In: Proceedings of the third workshop on computational linguistics and clinical psychology. San Diego, CA: Association for Computational Linguistics. 2016. Pp. 106–117.
  4. O’dea B., Wan S., Batterham P.J. et al. Detecting suicidality on Twitter. Internet Interventions // The Application of Information Technology in Mental and Behavioural Health. 2015. No. 2 (2). Pp. 183–188. doi: 10.1016/j.invent.2015.03.005.
  5. Бонцанини М. Анализ социальных медиа на Python. Извлекайте и анализируйте данные из всех уголков социальной паутины на Python / пер. с англ. А.В. Логунова. М.: ДМК Пресс, 2018. 288 с. ISBN 978-5-97060-574-5. URL: https://e.lanbook.com/book/108129
  6. Зоткина А.А. Анализ депрессивного состояния пользователей социальной сети «ВКонтакте» // XXI век: итоги прошлого и проблемы настоящего плюс. 2022. Т. 11. № 4 (60). С. 52–55. doi: 10.46548/21vek-2022-1160-0007.
  7. Коэльо Л.П., Ричарт В. Построение систем машинного обучения на языке Python / пер. с англ. А.А. Слинкин. 2-е изд. М.: ДМК Пресс, 2016. 302 с. ISBN 978-5-97060-330-7. URL: https://e.lanbook.com/book/82818
  8. Макшанов А.В., Журавлев А.Е., Тындыкарь Л.Н. Большие данные. Big Data. 2-е изд., стер. СПб.: Лань, 2022. 188 с. ISBN 978-5-8114-9690-7. URL: https://e.lanbook.com/book/198599
  9. Москвитин А.А. Данные, информация, знания: методология, теория, технологии: монография. СПб.: Лань, 2022. 236 с. ISBN 978-5-8114-3232-5. URL: https://e.lanbook.com/book/206267
  10. Семериков А.В., Глазырин М.А. Классификация объектов на основе нейронной сети и методами дерева решения и ближайших соседей: учеб. пособие. Ухта: УГТУ, 2022. 68 с. URL: https://e.lanbook.com/book/267857
  11. Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных. М.: ДМК Пресс, 2015. 400 с. ISBN 978-5-97060-273-7. URL: https://e.lanbook.com/book/69955
  12. Шалев-Шварц Ш., Бен-Давид Ш. Идеи машинного обучения: учеб. пособие / пер. с англ. А.А. Слинкина. М.: ДМК Пресс, 2019. 436 с. ISBN 978-5-97060-673-5. URL: https://e.lanbook.com/book/131686 (дата обращения: 02.02.2023).

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Модель обнаружения депрессивного состояния пользователей социальной сети ВКонтакте

Скачать (251KB)


Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».