An analytical review\ of architectures, models, methods and algorithms\ for localization and tracking of non-rigid objects

Cover Page

Cite item

Full Text

Abstract

Computer vision requires video stream analysis, including extracting information from frames, detecting specific objects, and collecting data about them. After detection, tracking or following objects in the video stream is often required. Non-rigidity or shape variability hinders object analysis, complicates their detection and tracking, and worsens localization.The review considers architectures, models, methods, and algorithms used in practice for detection and tracking of non-rigid objects, and highlights promising solutions.

About the authors

Grigory Glebovich Gricenko

Ailamazyan Program Systems Institute of RAS

Email: GregorGre@mail.ru

Vitaly Petrovich Fralenko

Ailamazyan Program Systems Institute of RAS

Email: alarmod@pereslavl.ru

References

  1. Ergasheva A., Akhmedov F., Abdusalomov A., Kim W.. “Advancing maritime safety: early detection of ship fires through computer vision, deep learning approaches, and histogram equalization techniques”, Fire, 7:3 (2024), 84, 15 pp.
  2. Farkhod A., Abdusalomov A., Makhmudov F., Cho Y. I.. “LDA-based topic modeling sentiment analysis using topic/document/sentence (TDS)”, Applied Sciences, 11:23 (2021), 11091, 15 pp.
  3. Xu F., Zhang X., Deng T., Xu W.. “An image-based fire monitoring algorithm resistant to fire-like objects”, Fire, 7:1 (2024), 3, 12 pp.
  4. Woo S., Park J., Lee J. -Y.. CBAM: convolutional block attention module, 2018, 17 pp.
  5. Li G., Chen P., Xu C., Sun C., Ma Y.. “Anchor-free smoke and flame recognition algorithm with multi-loss”, Fire, 6:6 (2023), 225, 16 pp.
  6. Li X., Liang Y.. “Fire-RPG: an urban fire detection network providing warnings in advance”, Fire, 7:7 (2024), 214, 22 pp.
  7. Ding X., Zhang X., Ma N., Han J., Ding G., Sun J.. RepVGG: Making VGG-style ConvNets great again, 2021, 10 pp.
  8. Tang Y., Han K., Guo J., Xu C., Xu C., Wang Y.. GhostNetV2: enhance cheap operation with long-range attention, 2022, 12 pp.
  9. Zhang Q. L., Yang Y. B.. SA-Net: shuffle attention for deep convolutional neural networks, 2021, 9 pp.
  10. Wang Q., Wu B., P. Zhu, P. Li, W. Zuo, Hu Q.. ECA-Net: efficient channel attention for deep convolutional neural Networks, 2020, 12 pp.
  11. Yang L., Zhang R. Y., Li L., Xie X.. Simple attention module based speaker verification with iterative noisy label detection, 2021, 5 pp.
  12. Xie J., Zhao H.. “Forest fire object detection analysis based on knowledge distillation”, Fire, 6:12 (2023), 446, 15 pp.
  13. Jin C., Wang T., Alhusaini N., Zhao S., Liu H., Xu K., Zhang J.. “Video fire detection methods based on deep learning: datasets, methods, and future directions”, Fire, 6:8 (2023), 315, 27 pp.
  14. Yuan F., Zhang L., Wan B., Xia X., Shi J.. “Convolutional neural networks based on multi-scale additive merging layers for visual smoke recognition”, Machine Vision and Applications, 30 (2019), pp. 345–358.
  15. Muhammad K., Ahmad J., Lv Z., Bellavista P., Yang P., Baik S. W.. “Efficient deep CNN-based fire detection and localization in video surveillance applications”, IEEE Transactions on Systems, Man, and Cybernetics: Systems, 49:7 (2019), pp. 1419–1434.
  16. Iandola F. N., Han S., Moskewicz M. W., Ashraf K., Dally W. J., Keutzer K.. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size, 2016, 13 pp.
  17. Khudayberdiev O., Zhang J., Abdullahi S. M., Zhang S.. “Light-FireNet: an efficient lightweight network for fire detection in diverse environments”, Multimedia Tools and Applications, 81 (2022), pp. 24553–24572.
  18. Zheng S., Gao P., Wang W., Zou X.. “A highly accurate forest fire prediction model based on an improved dynamic convolutional neural network”, Applied Sciences, 12:13 (2022), 6721, 15 pp.
  19. Tao H., Duan Q.. “An adaptive frame selection network with enhanced dilated convolution for video smoke recognition”, Expert Systems with Applications, 215 (2023), 119371, 11 pp.
  20. Khan Z. A., Hussain T., Ullah F. U. M., Gupta S. K., Lee M. Y., Baik S. W.. “Randomly initialized CNN with densely connected stacked autoencoder for efficient fire detection”, Engineering Applications of Artificial Intelligence, 116 (2022), 105403, 11 pp.
  21. Hu C., Tang P., Jin W., He Z., Li W.. “Real-time fire detection based on deep convolutional long-recurrent networks and optical flow method”, Proceedings of the 2018 37th Chinese Control Conference (CCC), CCC 2018 (Wuhan, China, 25–27 July, 2018), IEEE, 2018, ISBN 978-1-538-64968-8, pp. 9061–9066.
  22. Li S., Yan Q., Liu P.. “An efficient fire detection method based on multiscale feature extraction, implicit deep supervision and channel attention mechanism”, IEEE Transactions on Image Processing, 29 (2020), pp. 8467–8475.
  23. Yang C., Pan Y., Cao Y., Lu X.. “CNN-transformer hybrid architecture for early fire detection”, Proceedings of the Artificial Neural Networks and Machine Learning. IV, ICANN 2022: 31st International Conference on Artificial Neural Networks (Bristol, UK, 6–9 September, 2022), Lecture Notes in Computer Science, vol. 13532, Springer, Berlin, 2022, ISBN 978-3-031-15936-7, pp. 570–581.
  24. Wang X., Cai L., Zhou S., Jin Y., Tang L., Zhao Y.. “Fire safety detection based on CAGSA-YOLO network”, Fire, 6:8 (2023), 297, 19 pp.
  25. Ding Z., Zhao Y., Li A., Zheng Z.. “Spatial-temporal attention two-stream convolution neural network for smoke region detection”, Fire, 4:4 (2021), 66, 12 pp.
  26. Cao Y., Tang Q., Lu X., Li F., Cao J.. STCNet: spatio-temporal cross network for industrial smoke detection, 2020, 10 pp.
  27. Shou Y., Meng T., Ai W., Xie C., Liu H., Wang Y.. “Object detection in medical images based on hierarchical transformer and mask mechanism”, Computational Intelligence and Neuroscience, 2022 (2022), 5863782, 12 pp.
  28. Lee S. -G., Kim E., Bae J. S., Kim J. H., Yoon S.. “Robust end-to-end focal liver lesion detection using unregistered multiphase computed tomography images”, IEEE Transactions on Emerging Topics in Computational Intelligence, 7:2 (2023), pp. 319–329.
  29. De Frutos J. P., Pedersen A., Pelanis E., Bouget D., Survarachakan S., Langø T., Elle O. -J., Lindseth F.. “Learning deep abdominal CT registration through adaptive loss weighting and synthetic data generation”, PLOS ONE, 18:2 (2023), pp. 1–14.
  30. Tyagi A. K., Mohapatra C., Das P., Makharia G., Mehra L., AP P., Mausam. DeGPR: deep guided posterior regularization for multi-class cell detection and counting, 2023, 11 pp.
  31. Kang M., Ting C. -M., Ting F. F., Phan R. C. -W.. RCS-YOLO: a fast and high-accuracy object detector for brain tumor detection, 2023, 11 pp.
  32. Kang M., Ting C. -M., Ting F. F., Phan R. C. -W.. BGF-YOLO: enhanced YOLOv8 with multiscale attentional feature fusion for brain tumor detection, 2023, 5 pp.
  33. Xu X., Jiang Y., Chen W., Huang Y., Zhang Y., Sun X.. DAMO-YOLO : a report on real-time object detection design, 2023, 10 pp.
  34. Kang M., Ting C. -M., Ting F. F., Phan R. C. -W.. RCS-YOLO: a fast and high-accuracy object detector for brain tumor detection, 2023, 11 pp.
  35. Jadon A., Omama M., Varshney A., Ansari M. S., Sharma R.. FireNet: a specialized lightweight fire & smoke detection model for real-time IoT applications, 2019, 6 pp.
  36. Shees A., Ansari M. S., Varshney A., Asghar M. N., Kanwal N.. “FireNet-v2: improved lightweight fire detection model for real-time IoT applications”, Procedia Computer Science, 218 (2023), pp. 2233–2242.
  37. Altowaijri A. H., Alfaifi M. S., Alshawi T. A., Ibrahim A. B., Alshebeili S. A.. “A privacy-preserving IoT-Based fire detector”, IEEE Access, 9 (2021), pp. 51393–51402.
  38. Valikhujaev Y., Abdusalomov A., Cho Y. I.. “Automatic fire and smoke detection method for surveillance systems based on dilated CNNs”, Atmosphere, 11:11 (2020), 1241, 15 pp.
  39. Muhammad K., Ahmad J., Mehmood I., Rho S., Baik S. W.. “Convolutional neural networks based fire detection in surveillance videos”, IEEE Access, 6 (2018), pp. 18174–18183.
  40. Saponara S., Elhanashi A., Gagliardi A.. “Real-time video fire/smoke detection based on CNN in antifire surveillance systems”, Journal of Real-Time Image Processing, 18 (2021), pp. 889–900.
  41. Ayala A., Lima E., Fernandes B., Bezerra B. L., Cruz F.. “Lightweight and efficient octave convolutional neural network for fire recognition”, Proceedings of the 2019 IEEE Latin American Conference on Computational Intelligence, LA-CCI'2019 (Guayaquil, Ecuador, 11–15 November, 2019), IEEE, 2019, ISBN 978-1-7281-5666-8, 6 pp.
  42. Saponara S., Elhanashi A., Gagliardi A.. “Exploiting R-CNN for video smoke/fire sensing in antifire surveillance indoor and outdoor systems for smart cities”, Proceedings of the 2020 IEEE International Conference on Smart Computing, SMARTCOMP'2020 (Bologna, Italy, 14–17 September, 2020), IEEE, 2020, ISBN 978-1-7281-6997-2, pp. 392–397.
  43. Thomson W., Bhowmik N., Breckon T. P.. Efficient and compact convolutional neural network architectures for non-temporal real-time fire detection, 2020, 6 pp.
  44. Zoph B., Vasudevan V., Shlens J., Le Q. V.. “Learning transferable architectures for scalable image recognition”, Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), CVPR'18 (Salt Lake City, Utah, 18–22 June, 2018), IEEE, 2018, ISBN 978-1-728-13294-5, pp. 8697–8710.
  45. Ma N., Zhang X., Zheng H. -T., Sun J.. “Shufflenet v2: practical guidelines for efficient CNN architecture design”, Proceedings of the 2018 European Conference on Computer Vision (ECCV), ECCV'18 (Munich, Germany, 8–14 September, 2018), Lecture Notes in Computer Science, vol. 11218, Springer, Cham, 2018, ISBN 978-3-030-01263-2, pp. 122–138.
  46. Li H., Kadav A., Durdanovic I., Samet H., Graf H. P.. Pruning filters for efficient ConvNets, 2017, 13 pp.
  47. Hu Y., Zhan J., Zhou G., Chen A., Cai W., Guo K., Hu Y., Li L.. “Fast forest fire smoke detection using MVMNet”, Knowledge-Based Systems, 241 (2022), 20 pp.
  48. Yan K., Bagheri M., Summers R. M.. 3D context enhanced region-based convolutional neural network for end-to-end lesion detection, 2018, 11 pp.
  49. Zhang P., Liu W., Wang D., Lei Y., Wang H., Shen C., Lu H.. Non-rigid object tracking via deep multi-scale spatial-temporal discriminative saliency maps, 2019, 12 pp.
  50. Hong S., You T., Kwak S., Han B.. “Online tracking by learning discriminative saliency map with convolutional neural network”, Proceedings of the 32nd International Conference on Machine Learning, ICML'15 (Lille, France, 6–11 July, 2015), PMLR, vol. 37, 2015, ISBN 978-1-510-81058-7, pp. 597–606.
  51. Son J., Jung I., Park K., Han B.. “Tracking-by-segmentation with online gradient boosting decision tree”, Proceedings of the 2015 IEEE International Conference on Computer Vision, ICCV'15 (Santiago, Chile, 07–13 December, 2015), IEEE, 2015, ISBN 978-1-4673-8391-2, pp. 3056–3064.
  52. Sun X., Cheung N. -M., Yao H., Guo Y.. “Non-rigid object tracking via deformable patches using shape-preserved KCF and level sets”, Proceedings of the 2017 IEEE International Conference on Computer Vision, ICCV'17 (Venice, Italy, 22–29 October, 2017), IEEE, 2017, ISBN 978-1-5386-1032-9, pp. 5496–5504.
  53. Duffner S., Garcia C.. “PixelTrack: a fast adaptive algorithm for tracking non-rigid objects”, Proceedings of the 2013 IEEE International Conference on Computer Vision, ICCV'13 (Sydney, NSW, Australia, 1–8 December, 2013), IEEE, 2013, ISBN 978-1-4799-2840-8, pp. 2480–2487.
  54. Sevilla-Lara L., Learned-Miller E.. “Distribution fields for tracking”, Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition, CVPR'12 (Providence, RI, USA, 16–21 June, 2012), 2012, ISBN 978-1-4673-1226-4, pp. 1910–1917.
  55. Godec M., Roth P. M., Bischof H.. “Hough-based tracking of non-rigid objects”, Proceedings of the 2011 IEEE International Conference on Computer Vision, ICCV'11 (Barcelona, Spain, 06–13 November, 2011), 2011, ISBN 978-1-4577-1101-5, pp. 81–88.
  56. Sun X., Yao H., Zhang S., Li D.. “Non-rigid object contour tracking via a novel supervised level set model”, IEEE Transactions on Image Processing, 24:11 (2015), pp. 3386–3399.
  57. Li Y., Zhu J., Hoi S.. “Reliable Patch Trackers: Robust visual tracking by exploiting reliable patches”, Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition, CVPR'15 (Boston, MA, USA, 07–12 June, 2015), IEEE, 2015, ISBN 978-1-4673-6964-0, pp. 353–361.
  58. Olszewska J. I., Mathes T., Vleeschouwer C. D., Piater J., Macq B.. “Non-rigid object tracker based on a robust combination of parametric active contour and point distribution model”, Visual Communications and Image Processing 2007 (San Jose, CA, USA, 28 January–1 February, 2007), Proc. SPIE, vol. 6508, 2007, ISBN 978-0-8194-6621-1, 8 pp.
  59. Mathes T., Piater J.. “Robust non-rigid object tracking using point distribution manifolds”, Pattern Recognition, Lecture Notes in Computer Science, vol. 4174, Springer, Berlin–Heidelberg, 2006, ISBN 978-3-540-44414-5, pp. 515–524.
  60. Руиз-Родригез М., Кобер В. И., Карнаухов В. Н., Мозеров М. Г.. «Алгоритм трехмерной реконструкции нежестких объектов с использованием камеры глубины», Информационные процессы, 19:4 (2019), с. 388–398.
  61. Sipiran I., Bustos B. H.. “Harris 3D: a robust extension of the harris operator for interest point detection on 3D meshes”, The Visual Computer, 27:11 (2011), pp. 963–976.
  62. Zhong Y.. “Intrinsic shape signatures: A shape descriptor for 3D object recognition”, Proceedings of the 2009 IEEE Conference on Computer Vision Workshops, ICCVW'09 (Kyoto, Japan, 27 September–4 October, 2009), IEEE, 2009, ISBN 978-1-4244-4442-7, pp. 689–696.
  63. Smith S. M., Brady J. M.. “SUSAN — a new approach to low level image processing”, International Journal of Computer Vision, 23:1 (1997), pp. 45–78.
  64. Lowe D. G.. “Distinctive image features from scale-invariant keypoints”, International Journal of Computer Vision, 60:2 (2004), pp. 91–110.
  65. Rusu R. B., Marton Z. C., Blodow N., Beetz M.. “Persistent point feature histograms for 3D point clouds”, Proceedings of the 10th International Conference on Intelligent Autonomous Systems, IAS-10 (Baden-Baden, Germany, 23–25 July, 2008), IOS Press, 2008, ISBN 978-1-58603-887-8, pp. 119–128.
  66. Tombari F., Salti S., Stefano L. D.. “Unique signatures of histograms for local surface description”, Proceedings of the 2010 European Conference on Computer Vision, ECCV'10 (Crete, Greece, 5–11 September, 2010), Lecture Notes in Computer Science, vol. 6313, Springer, Berlin–Heidelberg, 2010, ISBN 978-3-642-15557-4, pp. 356–369.
  67. Frome A., Huber D., Kolluri R., Bulow T., Malik J.. “Recognizing objects in range data using regional point descriptors”, Proceedings of the 2004 European Conference on Computer Vision, ECCV'04 (Prague, Czech Republic, 11–14 May, 2004), Springer, Berlin–Heidelberg, 2004, ISBN 978-3-540-21982-8, pp. 224–237.
  68. Lazebnik S., Schmid C., Ponce J.. “A sparse texture representation using local affine regions”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 27:8 (2005), pp. 1265–1278.
  69. Marton Z. C., Pangercic D., Blodow N., Kleinehellefort J., Beetz M.. “General 3D modelling of novel objects from a single view”, Proceedings of the 2010 IEEE/RSJ Conference on Intelligent Robots and Systems, IROS'10 (Taipei, Taiwan, 18–22 October, 2010), IEEE, 2010, ISBN 978-1-4244-6674-0, pp. 3700–3705.
  70. Sturm J., Engelhard N., Endres F., Burgard W., Cremers D.. “A Benchmark for the evaluation of RGB-D SLAM systems”, Proceedings of the 2012 IEEE/RSJ Conference on Intelligent Robots and Systems (IROS), IROS'12 (Vilamoura-Algarve, Portugal, 7–12 October, 2012), IEEE, 2012, ISBN 978-1-4673-1737-5, pp. 573–580.

Supplementary files

Supplementary Files
Action
1. JATS XML


Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».