Мультимодальное предсказание цен акций на примере российского рынка ценных бумаг

Обложка

Цитировать

Полный текст

Аннотация

Классические методы прогнозирования цен активов в основном опираются на числовые данные, такие как временные ряды цен, объемы торгов, распределение лимитированных ордеров и индикаторы технического анализа. Однако новостной фон играет существенную роль в формировании цен, что делает актуальным развитие мультимодальных подходов, объединяющих текстовые и числовые данные для повышения точности предсказаний.В данной работе решается задача прогнозирования цен финансовых активов с использованием мультимодального подхода, объединяющего временные ряды цен и текстовую модальность новостного потока. Для исследований был собран уникальный набор данных, включающий временные ряды для 176 акций российских компаний, торгуемых на Московской бирже, и $79555$ русскоязычных финансовых новостей.Для обработки текстовых данных использовались предобученные модели RuBERT и Vikhr-Qwen2.5-0.5b-Instruct (большая языковая модель), временные ряды и векторизованная текстовая модальность обрабатывались рекуррентной нейронной сетью LSTM. В ходе экспериментов сравнивались модели с одной модальностью и двумя модальностями, а также различные методы агрегации векторных представлений текстов.Качество прогнозов оценивалось по двум ключевым метрикам: точности (accuracy) предсказания направления изменения цены (рост/снижение) и средней абсолютной процентной ошибке (MAPE) отклонения предсказанной цены от истинной. Эксперименты показали, что добавление текстовой модальности позволяет уменьшить значение MAPE на 55%.Полученный мультимодальный набор данных представляет ценность для дальнейшей адаптации языковых моделей в финансовой сфере. Перспективные направления исследований включают оптимизацию параметров текстовой модальности, таких как временное окно, тональность и хронологический порядок новостных сообщений.

Об авторах

Касымхан Юсуфович Хубиев

Университет «Сириус»

Email: kasymkhankhubievnis@gmail.com
исследователь в центре социально-экономического прогнозирования, магистрант направления «Финансовая математика и финансовые технологии», Университет «Сириус». Научные интересы: искусственные интеллект и его приложения в науке, финансах, промышленности и бизнесе.

Михаил Евгеньевич Семенов

Университет «Сириус»

Email: semenov.me@talantiuspeh.ru
к.ф.-м.н., научный руководитель направления «Финансовая математика и финансовые технологии», Университет «Сириус», Научные интересы: информационные технологии, интеллектуальные технологии обработки и анализа данных.

Список литературы

  1. K. Mishev, A. Gjorgjevikj, I. Vodenska, L. Chitkushev, D. Trajanov. „Evaluation of sentiment analysis in finance: from lexicons to transformers“, IEEE Access, 8 (2020), pp. 131662–131682 DOI https://doi.org/10.1109/ACCESS.2020.3009626.
  2. T. -T. Ho, Y. Huang. „Stock price movement prediction using sentiment analysis and CandleStick chart representation“, Sensors, 21:23 (2021), 7957, 18 DOI https://doi.org/10.3390/s21237957 pp.
  3. M. Jaggi, P. Mandal, S. Narang, U. Naseem, M. Khushi. „Text mining of stocktwits data for predicting stock prices“, Applied System Innovation, 4:1 (2021), 13, 22 DOI https://doi.org/10.3390/asi4010013 pp.
  4. B. Fazlija, P. Harder. „Using financial news sentiment for stock price direction prediction“, Mathematics, 10:13 (2022), 2156, 20 pp.
  5. Y. Xinli, Ch. Zheng, L. Yuan, D. Shujing, L. Zongyi, L. Yanbin. Temporal data meets LLM — Explainable financial time series forecasting, 2023, 13 pp.
  6. Zh. Boyu, Y. Hongyang, X. -Y. Liu. Instruct-FinGPT: Financial sentiment analysis by instruction tuning of general-purpose large language models, 2023, 7 pp.
  7. T. D. Kulikova, E. Y. Kovtun, S. A. Budennyy. „Do we benefit from the categorization of the news flow in the stock price prediction problem?“, Dokl. Math., 108, Suppl. 2 (2023), pp. S503–S510 DOI https://doi.org/10.1134/S1064562423701648.
  8. Y. Kuratov, M. Arkhipov. Adaptation of deep bidirectional multilingual transformers for Russian language, 2019, 8 pp.
  9. A. Nikolich, K. Korolev, A. Shelmanov, I. Kiselev. Vikhr: The family of open-source instruction-tuned large language models for Russian, 2024, 8 pp.
  10. A. Yang, B. Yang, B. Hui, B. Zheng, B. Yu, Ch. Zhou, Ch. Li, Ch. Li, D. Liu, F. Huang, G. Dong, H. Wei, H. Lin, J. Tang, J. Wang, J. Yang, J. Tu, J. Zhang, J. Ma, J. Yang, J. Xu, J. Zhou, J. Bai, J. He, J. Lin, K. Dang, K. Lu, K. Chen, K. Yang, M. Li, M. Xue, N. Ni, P. Zhang, P. Wang, R. Peng, R. Men, R. Gao, R. Lin, Sh. Wang, Sh. Bai, S. Tan, T. Zhu, T. Li, T. Liu, W. Ge, X. Deng, X. Zhou, X. Ren, X. Zhang, X. Wei, X. Ren, X. Liu, Y. Fan, Y. Yao, Y. Zhang, Y. Wan, Y. Chu, Y. Liu, Z. Cui, Zh. Zhang, Zh. Guo, Zh. Fan. Qwen2 Technical Report, 2024, 26 pp.
  11. K. Khubiev. Russian financial news dataset, Kaggle Platform, 2025 URL https://www.kaggle.com/datasets/kkhubiev/russian-financial-news doi: 10.34740/kaggle/dsv/10614647.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».