Распознавание сложно-составных действий человека на основе анализа последовательности скелетных поз

Kirill Mikhailovich Maksimenko; Lev Nikolaevich Teryaev; Victor Alexandrovich Dorokhin; Andrey Vasilevich Nechaevskiy

doi:10.25559/SITITO.021.202502.241-250

Kirill Mikhailovich Maksimenko Государственный университет "Дубна" http://orcid.org/0009-0000-9251-3812
Lev Nikolaevich Teryaev Государственный университет "Дубна" http://orcid.org/0009-0008-3188-7616
Victor Alexandrovich Dorokhin Государственный университет "Дубна" http://orcid.org/0000-0001-5283-614X
Andrey Vasilevich Nechaevskiy Государственный университет "Дубна"; Объединенный институт ядерных исследований http://orcid.org/0000-0001-6751-8195

DOI: https://doi.org/10.25559/SITITO.021.202502.241-250

Аннотация

Одним из приоритетных направлений развития технологии компьютерного зрения является выделение скелетных данных из изображений людей и последующее использование этих данных для решения целого спектра прикладных задач. В статье дается краткий обзор технологий для решения задачи распознавания действий человека, выделяются основные подходы, описываются ограничения, преимущества и недостатки. Авторами предложен новый подход к распознаванию сложносоставных действий человека на основе анализа динамики скелетных данных и применения машины состояний. Используемый подход является многоступенчатым и сочетает в себе последовательное использование нейросетевой модели определения позы человека MoveNet, пользовательского слоя извлечения расширенных признаков (PoseEnhancementLayer), а также алгоритм выявления совершаемого действия на основе анализа поз в бифуркационных точках действия. Предложенное авторами решение позволяет определять действия без дополнительного обучения модели, что обеспечивает гибкость и масштабируемость. Тестирование на открытых датасетах показало высокую точность классификации поз человека и устойчивость к неполным или зашумленным последовательностям. Результаты работы актуальны для задач в области спортивной аналитики, интерактивного обучения, реабилитации и медицинского мониторинга.

Сведения об авторах

Kirill Mikhailovich Maksimenko, Государственный университет "Дубна"

студент Института системного анализа и управления

Lev Nikolaevich Teryaev, Государственный университет "Дубна"

аспирант кафедры распределенных и вычислительных систем Института системного анализа и управления

Victor Alexandrovich Dorokhin, Государственный университет "Дубна"

старший преподаватель кафедры распределенных и вычислительных систем Института системного анализа и управления

Andrey Vasilevich Nechaevskiy, Государственный университет "Дубна"; Объединенный институт ядерных исследований

и.о. проректора по цифровому развитию; старший научный сотрудник Лаборатории информационных технологий имени М.Г. Мещерякова

Литература

1. Song X., et al. Quater-GCN: enhancing 3D human pose estimation with orientation and semi-supervised training. Frontiers in Artificial Intelligence and Applications. Vol. 392:(ECAI). IOS Press; 2024. p. 121-128. https://doi.org/10.3233/FAIA240479
2. Zhou L., et al. Human pose-based estimation, tracking and action recognition with deep learning: a survey. arXiv:2310.13039. 2023. https://doi.org/10.48550/arXiv.2310.13039
3. Jan M.T., Kumar A., Sonar V.G., et al. Comprehensive survey of body weight estimation: techniques, datasets, and applications. Multimedia Tools and Applications. 2025;84:28807-28837. https://doi.org/10.1007/s11042-024-20318-4
4. Artacho B., Savakis A. Omnipose: A multi-scale framework for multi-person pose estimation. arXiv:2103.10180. 2021. https://doi.org/10.48550/arXiv.2103.10180
5. Xu Y., et al. Vitpose++: Vision transformer for generic body pose estimation.IEEE Transactions on Pattern Analysis and Machine Intelligence. 2023;46(2):1212-1230. https://doi.org/10.1109/TPAMI.2023.3330016
6. Bajpai R., Joshi D. MoveNet: A Deep Neural Network for Joint Profile Prediction Across Variable Walking Speeds and Slopes.IEEE Transactions on Instrumentation and Measurement. 2021;70:2508511. https://doi.org/10.1109/TIM.2021.3073720
7. Feichtenhofer C., Fan H., Malik J., He K. SlowFast Networks for Video Recognition. In: 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE Press; 2019. p. 6201-6210. https://doi.org/10.1109/ICCV.2019.00630
8. Freire-Obregón D., Barra P., Castrillón-Santana M., et al. Inflated 3D ConvNet context analysis for violence detection. Machine Vision and Applications. 2022;33:15. https://doi.org/10.1007/s00138-021-01264-9
9. Neimark D., Bar O., Zohar M., Asselmann D. Video Transformer Network. In: 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). Montreal, BC, Canada: IEEE Press; 2021. p. 3156-3165. https://doi.org/10.1109/ICCVW54120.2021.00355
10. Yan S., Xiong Y., Lin D. Spatial temporal graph convolutional networks for skeleton-based action recognition. In: Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence and Thirtieth Innovative Applications of Artificial Intelligence Conference and Eighth AAAI Symposium on Educational Advances in Artificial Intelligence (AAAI'18/IAAI'18/EAAI'18). Article number: 912. AAAI Press; 2018. p. 7444-7452.
11. Kazakova S.A., Leonteva P.A., Frolova M.I., Donetskaya Ju.V., Popov I.Yu., Kuznetsov A.Yu. A study of human motion in computer vision systems based on a skeletal model. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2021;21(4):571-577. (In Russ., abstract in Eng.) https://doi.org/10.17586/2226-1494-2021-21-4-571-577
12. Ali A., et al. Skeleton-based human action recognition via convolutional neural networks (CNN). arXiv:2301.13360. 2023. https://doi.org/10.48550/arXiv.2301.13360
13. Zhao M., Yu Y., Wang X., Yang L., Niu D. Search-Map-Search: A Frame Selection Paradigm for Action Recognition. In: 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver, BC, Canada: IEEE Press; 2023. p. 10627-10636. https://doi.org/10.1109/CVPR52729.2023.01024
14. Feng S., de Sa V.R. One-Frame Calibration with Siamese Network in Facial Action Unit Recognition. arXiv:2409.00240. 2024. https://doi.org/10.48550/arXiv.2409.00240
15. Pham D.T., Diem C.H. Deep Learning for Hand Gesture Recognition Using Channel-Wise Topology Refinement. In: Le Thi H.A., Pham Dinh T., Le H.M. (eds.) Modelling, Computation and Optimization in Information Systems and Management Sciences. MCO 2025. Lecture Notes in Networks and Systems. Vol. 1689. Cham: Springer; 2026.p. 250-259. https://doi.org/10.1007/978-3-032-08384-5_21
16. Sandler M., Howard A., Zhu M., Zhmoginov A., Chen L. -C. MobileNetV2: Inverted Residuals and Linear Bottlenecks. In: 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE Press; 2018. p. 4510-4520. https://doi.org/10.1109/CVPR.2018.00474
17. Lin T.-Y., Dollár P., Girshick R., He K., Hariharan B., Belongie S. Feature Pyramid Networks for Object Detection. In; 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE Press; 2017. p. 936-944. https://doi.org/10.1109/CVPR.2017.106
18. Zhou X., Wang D., Krähenbühl P. Objects as points. arXiv:1904.07850. 2019. https://doi.org/10.48550/arXiv.1904.07850
19. Mishra A.K., Sahoo D., Subhankar I., Samal I. YogaSiddhi: AI-powered pose analysis using MoveNet for yoga refinement. International Journal of Computer Applications. 2024;186(4):33-39. https://doi.org/10.5120/ijca2024923427
20. Al-Kababji A., Bensaali F., Dakua S.P. Scheduling Techniques for Liver Segmentation: ReduceLRonPlateau vs OneCycleLR. In: Bennour A., Ensari T., Kessentini Y., Eom S. (eds.) Intelligent Systems and Pattern Recognition. ISPR 2022. Communications in Computer and Information Science. Vol. 1589. Cham: Springer; 2022. p. 204-212. https://doi.org/10.1007/978-3-031-08277-1_17
21. Ziebell E., et al. EarlyStopping: Implicit Regularization for Iterative Learning Procedures in Python. arXiv:2503.16753. 2025. https://doi.org/10.48550/arXiv.2503.16753
22. Bergroth L., Hakonen H., Raita T. A survey of longest common subsequence algorithms. In: Proceedings Seventh International Symposium on String Processing and Information Retrieval. SPIRE 2000. A Curuna, Spain: IEEE Press; 2000. p. 39-48. https://doi.org/10.1109/SPIRE.2000.878178
23. Dorokhin V.A., Teryaev L.N., Zorin R.A. Augmented Reality Technologies and Prospects for Their Global Application within the Framework of the Geo-Oriented XR-Internet Concept. Modern Information Technologies and IT-Education. 2023;19(2):403-411. (In Russ., abstract in Eng.) https://doi.org/10.25559/SITI-TO.019.202302.403-411
24. Dorokhin V.A. Augmented Reality and Synchronisation of its Events. System analysis in science and education. 2017;(2):1-5. (In Russ., abstract in Eng.) EDN: ZTQADL
25. Gupta L., Gurbuxani S., Madan K. Virtual Fitness Trainer using Artificial Intelligence. In: Proceedings of the 2024 Sixteenth International Conference on Contemporary Computing (IC3-2024). New York, NY, USA: Association for Computing Machinery; 2024. p. 226-233. https://doi.org/10.1145/3675888.3676056