Image classification based on deep learning with automatic relevance determination and structured Bayesian pruning

Cover Page

Cite item

Full Text

Abstract

Deep learning’s power stems from complex architectures; however, these can lead to overfitting, where models memorize training data and fail to generalize to unseen examples. This paper proposes a novel probabilistic approach to mitigate this issue. We introduce two key elements: Truncated Log-Uniform Prior and Truncated Log-Normal Variational Approximation, and Automatic Relevance Determination (ARD) with Bayesian Deep Neural Networks (BDNNs). Within the probabilistic framework, we employ a specially designed truncated log-uniform prior for noise. This prior acts as a regularizer, guiding the learning process towards simpler solutions and reducing overfitting. Additionally, a truncated log-normal variational approximation is used for efficient handling of the complex probability distributions inherent in deep learning models. ARD automatically identifies and removes irrelevant features or weights within a model. By integrating ARD with BDNNs, where weights have a probability distribution, we achieve a variational bound similar to the popular variational dropout technique. Dropout randomly drops neurons during training, encouraging the model not to rely heavily on any single feature. Our approach with ARD achieves similar benefits without the randomness of dropout, potentially leading to more stable training.To evaluate our approach, we have tested the model on two datasets: the Canadian Institute For Advanced Research (CIFAR-10) for image classification and a dataset of Macroscopic Images of Wood, which is compiled from multiple macroscopic images of wood datasets. Our method is applied to established architectures like Visual Geometry Group (VGG) and Residual Network (ResNet). The results demonstrate significant improvements. The model reduced overfitting while maintaining, or even improving, the accuracy of the network’s predictions on classification tasks. This validates the effectiveness of our approach in enhancing the performance and generalization capabilities of deep learning models.

About the authors

Cong Thang Pham

The University of Danang

Email: pcthang@dut.udn.vn

Minh Nhat Phan

The University of Danang

Email: pcthang@dut.udn.vn

Thi Thu Thao Tran

University of Economics, The University of Danang

Author for correspondence.
Email: pcthang@dut.udn.vn

References

  1. J. Beckers, B. V. Erp, Z. Zhao, K. Kondrashov, B. D. Vries, “Principled pruning of Bayesian neural networks through variational free energy minimization”, IEEE Open Journal of Signal Processing, 5 (2023), 195–203.
  2. L. G. Esteban, F. G. Fernandez, et al., “Artificial neural networks in wood identification: the case of two Juniperus species from the Canary Islands”, IAWA Journal, 30 (2009), 87–94.
  3. M. Figurnov, A. Ibraimova, D. Vetrov, P. Kohli, “Perforated CNNs: acceleration through elimination of redundant convolutions”, International Conference on Neural Information Processing Systems, 2016, 955–963.
  4. P. L. P. Filho, L. S. Oliveira, S. Nisgoski, A. S. Britto, “Forest species recognition using macroscopic images”, Machine Vision and Applications, 25 (2014), 1019–1031.
  5. Y. Gal, Uncertainty in Deep Learning, University of Cambridge, 2016, 174 pp.
  6. Y. Gal, Z. Ghahramani, “Dropout as a Bayesian approximation: representing model uncertainty in deep learning”, International Conference on Machine Learning, ICML, 48 (2016), 1050–1059.
  7. T. He, S. Mu, H. Zhou, J. Hu, “Wood species identification based on an ensemble of deep convolution neural networks”, Wood Research, 66 (2021), 1–14.
  8. K. He, X. Zhang, S. Ren, J. Sun, “Deep residual learning for image recognition”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, 770–778.
  9. G. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, R. Salakhutdinov, “Improving neural networks by preventing co-adaptation of feature detectors”, CoRR, 2012, 1–18.
  10. J. Hron, A. Matthews, Z. Ghahramani, “Variational Bayesian dropout: pitfalls and fixes”, International Conference on Machine Learning, 2018, 2019–2028.
  11. A. Jungo, et al., “Towards uncertainty-assisted brain tumor segmentation and survival prediction”, International Conference on Medical Image Computing and Computer Assisted Intervention, MICCAI (BrainLes 2017), 2018, 474–485.
  12. V. Kharitonov, D. Molchanov, D. Vetrov, Variational Dropout via Empirical Bayes, 2018, 5 pp., arXiv:1811.00596.
  13. D. P. Kingma, T. Salimans, M. Welling, “Variational dropout and the local reparameterization trick”, International Conference on Neural Information Processing Systems, 2015, 2575–2583.
  14. B. Lakshminarayanan, A. Pritzel, C. Blundell, “Simple and scalable predictive uncertainty estimation using deep ensembles”, International Conference on Neural Information Processing Systems, 2017, 6405–6416.
  15. V. Lebedev, V. Lempitsky, “Fast convnets using group-wise brain damage”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, 2554–2564.
  16. F. Lens, C. Liang, Y. Guo, et al., “Computer-assisted timber identification based on features extracted from microscopic wood sections”, IAWA Journal, 41 (2020), 660–680.
  17. Z. Li, B. Gong, T. Yang, “Improved dropout for shallow and deep learning”, International Conference on Neural Information Processing Systems, 2016, 2531–2539.
  18. C. Louizos, K. Ullrich, M. Welling, “Bayesian compression for deep learning”, International Conference on Neural Information Processing Systems, 2017, 3290–3300.
  19. D. J. C. MacKay, “Probable networks and plausible predictions — a review of practical Bayesian methods for supervised neural networks”, Network: Computation in Neural Systems, 6 (1995), 469–505.
  20. S. Mathew, D. B. Rowe, Pruning a Neural Network Using Bayesian Inference, 2023, 26 pp., arXiv:2308.02451.
  21. D. Molchanov, A. Ashukha, D. Vetrov, “Variational dropout sparsifies deep neural networks”, International Conference on Machine Learning, 70 (2017), 2498–2507.
  22. E. Mortaz, “Imbalance accuracy metric for model selection in multi-class imbalance classification problems”, Knowledge-Based Systems, 210 (2020), 1–8.
  23. R. M. Neal, Bayesian Learning for Neural Networks, Lecture Notes in Computer Science, 118, 2012, 204 pp.
  24. K. Neklyudov, D. Molchanov, A. Ashukha, P. Vetrov, “Structured Bayesian pruning via log-normal multiplicative noise”, International Conference on Neural Information Processing Systems, 2017, 6778–6787.
  25. N. Rosa da Silva, V. Deklerck, J. M. Baetens, et al., “Improved wood species identification based on multi-view imagery of the three anatomical planes”, Plant Methods, 18 (2022), 1–17.
  26. J. L. Silva, R. Bordalo, J. Pissarra, “Wood identification: an overview of current and past methods”, ECR, 12 (2020), 45–68, Studies in Conservation & Restoration.
  27. J. L. Silva, R. Bordalo, J. Pissarra, P. Palacios, “Computer vision-based wood identification: a review”, Forests, 13 (2022), 1–26.
  28. K. Simonyan, A. Zisserman, “Very deep convolutional networks for large-scale image recognition”, International Conference on Learning Representations, ICLR, 2015, 1–14.
  29. N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, R. Salakhutdinov, “Dropout: a simple way to prevent neural networks from overfitting”, The Journal of Machine Learning Research, 15 (2014), 1929–1958.
  30. M. K. Titsias, M. Lazaro-Gredilla, “Doubly stochastic variational Bayes for non-conjugate inference”, International Conference on Machine Learning, ICML, 32 (2014), 1971–1979.
  31. W. Wen, C. Wu, Y. Wang, Y. Chen, H. Li, “Learning structured sparsity in deep neural networks”, International Conference on Neural Information Processing Systems, 2016, 2082–2090.
  32. A. Zhou, K. Luo, “Sparse dropout regularization method for convolutional neural networks”, Journal of Chinese Computer Systems, 39 (2018), 1674–1679.
  33. Y. Zhou, Y. Zhang, Y. Wang, Q. Tian, “Accelerate CNN via Recursive Bayesian Pruning”, IEEE International Conference on Computer Vision, ICCV, 2019, 3305–3314.
  34. L. Zhu, N. Laptev, “Deep and confident prediction for time series at Uber”, IEEE International Conference on Data Mining, ICDM, 2017, 103–110.

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».