Экстраполяция байесовского классификатора при неизвестном носителе распределения смеси двух классов

Обложка
  • Авторы: Лукьянов К.С.1,2,3, Яськов П.А.4,5, Перминов А.И.1,3, Коваленко А.П.6, Турдаков Д.Ю.1,3
  • Учреждения:
    1. Институт системного программирования им. В.П. Иванникова РАН
    2. Московский физико-технический институт (национальный исследовательский университет)
    3. Исследовательский центр доверенного искусственного интеллекта ИСП РАН
    4. Математический институт им. В.А. Стеклова Российской академии наук
    5. Национальный исследовательский технологический университет "МИСиС"
    6. Академия криптографии РФ
  • Выпуск: Том 79, № 6 (2024)
  • Страницы: 57-82
  • Раздел: Статьи
  • URL: https://bakhtiniada.ru/0042-1316/article/view/281941
  • DOI: https://doi.org/10.4213/rm10208
  • ID: 281941

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

В работе представлен метод, направленный на повышение надежностибайесовского классификатора. Метод заключается в добавлениик обучающей выборке из смеси распределений двух исходных классовискусственно сгенерированных наблюдений из третьего, “фонового” класса,равномерно распределенного на компакте, содержащем неизвестныйноситель исходной смеси. Такая модификация позволяет приблизитьк заданному (в нашем случае к нулевому) уровню значениедискриминантной функции вне носителя распределения обучающих данных.Добавление варианта решения “Отказ от классификации”, принимаемогоклассификатором при достаточно малых значениях дискриминантнойфункции, приводит к локальному повышению его надежности. В частности,такой подход позволяет решить несколько проблем:отказаться от обработки данных, сильно отличающихся от обучающих;выявлять аномальные значения во входных данных; отказаться отпринятия решений в “пограничных” областях при разделении на классы.В статье приводится теоретическое обоснование оптимальностипредлагаемого классификатора. Практическая ценность методадемонстрируется на задачах классификации изображенийи временных рядов.Также предложена методика выделения доверенных областей,которую можно использовать для выявления аномальных данных,случаев смещения параметров распределения классов, выделения областейпересечения распределений исходных классов. На основе доверенныхобластей введены количественные показатели надежности иэффективности классификатора.Библиография: 23 названия.

Об авторах

Кирилл С. Лукьянов

Институт системного программирования им. В.П. Иванникова РАН; Московский физико-технический институт (национальный исследовательский университет); Исследовательский центр доверенного искусственного интеллекта ИСП РАН

Email: lukyanov.k@ispras.ru

Павел Андреевич Яськов

Математический институт им. В.А. Стеклова Российской академии наук; Национальный исследовательский технологический университет "МИСиС"

Email: yaskov@mi-ras.ru
Scopus Author ID: 36635347000
ResearcherId: S-2745-2016
кандидат физико-математических наук

Андрей Игоревич Перминов

Институт системного программирования им. В.П. Иванникова РАН; Исследовательский центр доверенного искусственного интеллекта ИСП РАН

Email: perminov@ispras.ru
ORCID iD: 0000-0001-8047-0114

А. П. Коваленко

Академия криптографии РФ

Email: a.p.kovalenko@yandex.ru

Денис Юрьевич Турдаков

Институт системного программирования им. В.П. Иванникова РАН; Исследовательский центр доверенного искусственного интеллекта ИСП РАН

Email: turdakov@ispras.ru
ORCID iD: 0000-0001-8745-0984

Список литературы

  1. A. Jishan, R. C. Green II, “Cost aware LSTM model for predicting hard disk drive failures based on extremely imbalanced S.M.A.R.T. sensors data”, Eng. Appl. Artif. Intell., 127 (2024), 107339, 11 pp.
  2. A. Caron, C. Hicks, V. Mavroudis, A view on out-of-distribution identification from a statistical testing theory perspective, 2024, 8 pp.
  3. Peng Cui, Jinjia Wang, “Out-of-distribution (OOD) detection based on deep learning: a review”, Electronics, 11:21 (2022), 3500, 19 pp.
  4. L. Devroye, L. Györfi, G. Lugosi, A probabilistic theory of pattern recognition, Appl. Math. (N. Y.), 31, Reprint of the 1996 original, Springer-Verlag, New York, 2013, xvi+636 pp.
  5. S. M. Djurasevic, U. M. Pesovic, B. S. Djordjevic, “Anomaly detection model for predicting hard disk drive failures”, Appl. Artif. Intell., 35:8 (2021), 549–566
  6. A. Farago, G. Lugosi, “Strong universal consistency of neural network classifiers”, IEEE Trans. Inform. Theory, 39:4 (1993), 1146–1151
  7. D. Hendrycks, K. Gimpel, A baseline for detecting misclassified and out-of-distribution examples in neural networks, 2016 (v1 – 2016), 12 pp.
  8. J. Jithish, B. Alangot, N. Mahalingam, Kiat Seng Yeo, “Distributed anomaly detection in smart grids: a federated learning-based approach”, IEEE Access, 11 (2023), 7157–7179
  9. A. Klein, Backblaze: Hard drive data and stats,
  10. Lingdong Kong, Shaoyuan Xie, Hanjiang Hu, Lai Xing Ng, B. Cottereau, Wei Tsang Ooi, “Robodepth: Robust out-of-distribution depth estimation under corruptions”, Adv. Neural Inf. Process. Syst., 36 (2023), 1–45
  11. Bo Li, Peng Qi, Bo Liu, Shuai Di, Jingen Liu, Jiquan Pei, Jinfeng Yi, Bowen Zhou, “Trustworthy AI: from principles to practices”, ACM Comput. Surveys, 55:9 (2023), 177, 46 pp.
  12. Jeremiah Zhe Liu, S. Padhy, Jie Ren, Zi Lin, Yeming Wen, G. Jerfel, Z. Nado, J. Snoek, D. Tran, B. Lakshminarayanan, “A simple approach to improve single-model deep uncertainty via distance-awareness”, J. Mach. Learn. Res., 24 (2023), 42, 63 pp.
  13. A. B. Nassif, M. Abu Talib, Q. Nasir, F. M. Dakalbab, “Machine learning for anomaly detection: a systematic review”, IEEE Access, 9 (2021), 78658–78700
  14. M. Perello-Nieto, T. D. M. E. S. Filho, M. Kull, P. Flach, “Background check: a general technique to build more reliable and versatile classifiers”, 2016 IEEE 16th international conference on data mining (ICDM), IEEE, 2016, 1143–1148
  15. R. Pinciroli, L. Yang, J. Alter, E. Smirni, “Lifespan and failures of SSDs and HDDs: similarities, differences, and prediction models”, IEEE Trans. Depend. Secure Comput., 20:1 (2023), 256–272
  16. K. Rasheed, A. Qayyum, M. Ghaly, A. Al-Fuqaha, A. Razi, J. Qadir, “Explainable, trustworthy, and ethical machine learning for healthcare: a survey”, Comput. Biol. Med., 149 (2022), 106043, 23 pp.
  17. Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, R. Dutta, R. Schaeffer, Sang T. Truong, Simran Arora, M. Mazeika, D. Hendrycks, Zinan Lin, Yu Cheng, S. Koyejo, Dawn Song, Bo Li, DecodingTrust: a comprehensive assessment of trustworthiness in GPT models, 2024 (v1 – 2023), 110 pp.
  18. Qibo Yang, Xiaodong Jia, Xiang Li, Jianshe Feng, Wenzhe Li, Jay Lee, “Evaluating feature selection and anomaly detection methods of hard drive failure prediction”, IEEE Trans. Reliab., 70:2 (2021), 749–760
  19. Hang Yu, Weixu Liu, Jie Lu, Yimin Wen, Xiangfeng Luo, Guangquan Zhang, “Detecting group concept drift from multiple data streams”, Pattern Recognition, 134 (2023), 109113, 11 pp.
  20. He Zhang, Bang Wu, Xingliang Yuan, Shirui Pan, Hanghang Tong, Jian Pei, “Trustworthy graph neural networks: aspects, methods, and trends”, Proc. IEEE, 112:2 (2024), 97–139
  21. Jing Zhang, Yuchao Dai, Mochu Xiang, Deng-Ping Fan, P. Moghadam, Mingyi He, C. Walder, Kaihao Zhang, M. Harandi, N. Barnes, Dense uncertainty estimation, 2021, 15 pp.
  22. Mingyu Zhang, Wenqiang Ge, Ruichun Tang, Peishun Liu, “Hard disk failure prediction based on blending ensemble learning”, Appl. Sci., 13:5 (2023), 3288, 22 pp.
  23. Zhilin Zhao, Statistical methods for out-of-distribution detection, PhD thesis, Univ. Technology Sydney, 2023, 107 pp.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Лукьянов К.С., Яськов П.А., Перминов А.И., Коваленко А.П., Турдаков Д.Ю., 2024

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».