Метод временных сегментов в задаче распознавания жестовых слов с предобученной  сетью CNN-LSTM

Seungju Lee; Irina Nikolaevna Polyakova

doi:10.25559/SITITO.021.202501.103-112

Seungju Lee Московский государственный университет имени М.В. Ломоносова http://orcid.org/0009-0007-0395-946X
Irina Nikolaevna Polyakova Московский государственный университет имени М.В. Ломоносова http://orcid.org/0000-0003-1432-4906

DOI: https://doi.org/10.25559/SITITO.021.202501.103-112

Аннотация

Распознавание жестового языка играет важную роль в обеспечении доступности и инклюзивности для людей с нарушением слуха, создавая условия для более эффективной коммуникации в социальной и профессиональной среде. Однако обработка видеоданных в задачах классификации жестов требует значительных вычислительных ресурсов из-за необходимости анализа большого количества кадров, что приводит к увеличению времени обучения и потребления памяти. Кроме того, видеоданные содержат избыточные кадры, не несущие важной информации для распознавания жестов, что дополнительно усложняет процесс обработки и приводит к неэффективному использованию ресурсов.
В данной работе представлена модель автоматического распознавания слов жестового языка, в основе которой лежит метод временных сегментов (TSN). Этот метод позволяет отбирать ключевые кадры из видеопоследовательностей, сокращая избыточные данные и значительно уменьшая время обучения и использование оперативной памяти без значительного ухудшения качества классификации. В качестве базовой технологии использовалась архитектура CNN-LSTM, где сверточная сеть ResNet отвечает за извлечение пространственных признаков, а рекуррентный слой LSTM обрабатывает временные зависимости в последовательностях.
В качестве данных использовался датасет WLASL, содержащий 6 классов жестов. Оценка производительности модели проводилась с использованием метрик Accuracy и F1-мера, что позволило объективно сравнить её с альтернативными подходами. В ходе экспериментов проведён сравнительный анализ различных предварительно обученных версий ResNet (ResNet18, ResNet34, ResNet50, ResNet101, ResNet152) и выявлена оптимальная конфигурация модели.
Результаты показали, что применение TSN привело к значительному снижению вычислительных затрат: время обучения сократилось в 2.173 раза, использование GPU RAM – в 0.5514 раза, а системной памяти – в 1.027 раза. При этом модель с TSN продемонстрировала даже более высокую точность по сравнению с версией без TSN, что подтверждает эффективность метода в задаче классификации жестового языка.
Таким образом, комбинация CNN-LSTM с ResNet18 и TSN обеспечивает не только высокую точность, но и эффективное использование вычислительных ресурсов. Полученные результаты могут служить основой для дальнейшего развития систем автоматического распознавания жестового языка, включая масштабирование на более крупные датасеты и интеграцию с мультимодальными системами обработки жестов.

Сведения об авторах

Seungju Lee, Московский государственный университет имени М.В. Ломоносова

студент факультета вычислительной математики и кибернетики

Irina Nikolaevna Polyakova, Московский государственный университет имени М.В. Ломоносова

доцент кафедры алгоритмических языков факультета вычислительной математики и кибернетики, кандидат физико-математических наук, доцент

Литература

1. Gil Y.H., Jee H.K., Lee J.S., Nam D.S. E-Book Accessibility Technology Trends and Prospects. Electronics and Telecommunications Trends. 2015;30(4):59-70. Available at: https://koreascience.kr/article/JAKO201552057196138.page (accessed 11.01.2025). (In Korean)
2. Noor T.H., Noor A., Alharbi A.F., Faisal A., Alrashidi R., Alsaedi A.S., Alharbi G., Alsanoosy T., Alsaeedi A. Real-Time Arabic Sign Language Recognition Using a Hybrid Deep Learning Model. Sensors. 2024;24(11):3683. https://doi.org/10.3390/s24113683
3. Renjith S., Manazhy R. Indian Sign Language Recognition: A Comparative Analysis Using CNN and RNN Models. In: 2023 International Conference on Circuit Power and Computing Technologies (ICCPCT). Kollam, India: IEEE Press; 2023. p. 1573-1576. https://doi.org/10.1109/ICCPCT58313.2023.10245525
4. Shin J., Musa Miah A.S., Hasan M.A.M., Hirooka K., Suzuki K., Lee H.-S., Jang S.-W. Korean Sign Language Recognition Using Transformer-Based Deep Neural Network. Applied Sciences. 2023;13(5):3029. https://doi.org/10.3390/app13053029
5. Kapitanov A., Karina K., Nagaev A., Elizaveta P. Slovo: Russian Sign Language Dataset. In: Christensen H.I., Corke P., Detry R., Weibel J.B., Vincze M. (eds.) Computer Vision Systems. ICVS 2023. Lecture Notes in Computer Science. Vol. 14253. Cham: Springer; 2023. p. 63-73. https://doi.org/10.1007/978-3-031-44137-0_6
6. Hama Rawf K.M., Abdulrahman A.O., Mohammed A.A. Improved Recognition of Kurdish Sign Language Using Modified CNN. Computers. 2024;13(2):37. https://doi.org/10.3390/computers13020037
7. Bora J., Dehingia S., Boruah A., Chetia A.A., Gogoi D. Real-time Assamese Sign Language Recognition using MediaPipe and Deep Learning. Procedia Computer Science. 2023;218:1384-1393. https://doi.org/10.1016/j.procs.2023.01.117
8. Das S., Imtiaz M.S., Neom N.H., Siddique N., Wang H. A hybrid approach for Bangla sign language recognition using deep transfer learning model with random forest classifier. Expert Systems with Applications. 2023;213(B):118914. https://doi.org/10.1016/j.eswa.2022.118914
9. Abdelrazik M.A., Zekry A., Mohamed W.A. Efficient Deep Learning Algorithm for Egyptian Sign Language Recognition. In: 2023 33rd Conference of Open Innovations Association (FRUCT). Zilina, Slovakia: IEEE Press; 2023. p. 3-8. https://doi.org/10.23919/FRUCT58615.2023.10142991
10. Wang L., et al. Temporal Segment Networks: Towards Good Practices for Deep Action Recognition. In: Leibe B., Matas J., Sebe N., Welling M. (eds.) Computer Vision ECCV 2016. ECCV 2016. Lecture Notes in Computer Science. Vol. 9912. Cham: Springer; 2016. p. 20-36. https://doi.org/10.1007/978-3-319-46484-8_2
11. Papatsimouli M., et al. Real Time Sign Language Translation Systems: A review study. In: 2022 11th International Conference on Modern Circuits and Systems Technologies (MOCAST). Bremen, Germany: IEEE Press; 2022. p. 1-4. https://doi.org/10.1109/MOCAST54814.2022.9837666
12. Liang Z., Li H., Chai J. Sign Language Translation: A Survey of Approaches and Techniques. Electronics. 2023;12(12):2678. https://doi.org/10.3390/electronics12122678
13. He S. Research of a Sign Language Translation System Based on Deep Learning. In: 2019 International Conference on Artificial Intelligence and Advanced Manufacturing (AIAM). Dublin, Ireland: IEEE Press; 2019. p. 392-396. https://doi.org/10.1109/AIAM48774.2019.00083
14. Grif M.G., Kozlov .N., Manueva Yu.S. Komp'yuternaya model' russkogo zhestovogo yazyka [A computer model of the Russian sign language]. Doklady Akademii nauk vysshei shkoly Rossiiskoi Federatsii = Proceedings of the Russian higher school Academy of sciences. 2017;(1):46-57. (In Russ., abstract in Eng.) https://doi.org/10.17212/1727-2769-2017-1-46-57
15. Ryumin D.A., Kagirov I.A., Axyonov A.A., Karpov A.A. Analytical Review of Models and Methods for Automatic Recognition of Gestures and Sign Languages. Information and Control Systems. 2021;(6):10-20. (In Russ., abstract in Eng.) https://doi.org/10.31799/1684-8853-2021-6-10-20
16. Karpathy A., Toderici G., Shetty S., Leung T., Sukthankar R., Fei-Fei L. Large-Scale Video Classification with Convolutional Neural Networks. In: 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE Press; 2014. p. 1725-1732. https://doi.org/10.1109/CVPR.2014.223
17. Ji S., Xu W., Yang M., Yu K. 3D Convolutional Neural Networks for Human Action Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2013;35(1):221-231. https://doi.org/10.1109/TPAMI.2012.59
18. Kuehne H., Jhuang H., Garrote E., Poggio T., Serre T. HMDB: A large video database for human motion recognition. In: 2011 International Conference on Computer Vision. Barcelona, Spain: IEEE Press; 2011. p. 2556-2563. https://doi.org/10.1109/ICCV.2011.6126543
19. Ding L., Xu C. TricorNet: A Hybrid Temporal Convolutional and Recurrent Network for Video Action Segmentation. arXiv:1705.07818. 2017. https://doi.org/10.48550/arXiv.1705.07818
20. Sridhar V. Convolutional Neural Networks Based Sign Language. International Journal of All Research Education and Scientific Methods. 2024;12(9):2394-2398. Available at: https://www.ijaresm.com/uploaded_files/document_file/Varadala_Sridhar9iF9.pdf (accessed 11.01.2025).
21. Gupta A., Sawan A., Singh S., Kumari S. Dynamic Sign Language Recognition with Hybrid CNN-LSTM and 1D Convolutional Layers. In: 2024 11th International Conference on Reliability, Infocom Technologies and Optimization (Trends and Future Directions) (ICRITO). Noida, India: IEEE Press; 2024. p. 1-6. https://doi.org/10.1109/ICRITO61523.2024.10522339
22. Paul S.K., et al. An Adam based CNN and LSTM approach for sign language recognition in real time for deaf people. Bulletin of Electrical Engineering and Informatics. 2024;13(1):499-509. https://doi.org/10.11591/eei.v13i1.6059
23. Kumari D., Anand R.S. Isolated Video-Based Sign Language Recognition Using a Hybrid CNN-LSTM Framework Based on Attention Mechanism. Electronics. 2024;13(7):1229. https://doi.org/10.3390/electronics13071229
24. Amangeldy N., Krak I., Kurmetbek B., Gazizova N. A Comparison of the Effectiveness Architectures LSTM1024 and 2DCNN for Continuous Sign Language Recognition Process. CEUR Workshop Proceedings. 2024;3702:48-57. Available at: https://ceur-ws.org/Vol-3702/paper5.pdf (accessed 11.01.2025).
25. Jintanachaiwat W., Jongsathitphaibul K., Pimsan N., et al. Using LSTM to translate Thai sign language to text in real time. Discover Artificial Intelligence. 2024;4:17. https://doi.org/10.1007/s44163-024-00113-8
26. Jayanthi P., Sathia Bhama P.R.K., Madhubalasri B. Sign Language Recognition using Deep CNN with Normalised Keyframe Extraction and Prediction using LSTM. Journal of Scientific & Industrial Research. 2023;82(07):745-755. https://doi.org/10.56042/jsir.v82i07.2375
27. Ahmadi S.A., Muhammad F., Dawsari H.A. CNN-TCN Deep Hybrid Model Based on Custom CNN with Temporal CNN to Recognize Sign Language. Journal of Disability Research. 2024;3(5):e20240034. https://doi.org/10.57197/JDR-2024-0034
28. McGill E., Saggion H. Can True Zero-shot Methods with Large Language Models be Adopted for Sign Language Machine Translation? In: Proceedings of the First International Workshop on Knowledge-Enhanced Machine Translation. Sheffield, United Kingdom: European Association for Machine Translation; 2024. p. 40-43. Available at: https://aclanthology.org/2024.kemt-1.5/ (accessed 11.01.2025).
29. Liu Y., Nand P., Hossain M.A., et al. Sign language recognition from digital videos using feature pyramid network with detection transformer. Multimedia Tools and Applications. 2023;82:21673-21685. https://doi.org/10.1007/s11042-023-14646-0
30. Kothadiya D.R., Bhatt C.M., Saba T., Rehman A., Bahaj S.A. SIGNFORMER: DeepVision Transformer for Sign Language Recognition. IEEE Access. 2023;11:4730-4739. https://doi.org/10.1109/ACCESS.2022.3231130
31. Li D., Opazo C.R., Yu X., Li H. Word-level Deep Sign Language Recognition from Video: A New Large-scale Dataset and Methods Comparison. In: 2020 IEEE Winter Conference on Applications of Computer Vision (WACV). Snowmass, CO, USA: IEEE Press; 2020. p. 1448-1458. https://doi.org/10.1109/WACV45572.2020.9093512
32. Glorot X., Bengio Y. Understanding the difficulty of training deep feedforward neural networks. In: Proceedings of the 13th International Conference on Artificial Intelligence and Statistics (AISTATS) 2010. Vol. 9 of JMLR: W&CP 9. Chia Laguna Resort, Sardinia, Italy; 2010. p. 249-256. Available at: https://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf (accessed 11.01.2025).
33. He K., Zhang X., Ren S., Sun J. Deep Residual Learning for Image Recognition. In: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE Press; 2016. p. 770-778. https://doi.org/10.1109/CVPR.2016.90
34. Simonyan K., Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv:1409.1556. 2015. https://doi.org/10.48550/arXiv.1409.1556
35. Tan M., Le Q.V. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks. In: Proceedings of the 36 th International Conference on Machine Learning. Vol. PMLR 97. Long Beach, California; 2019. p. 6105-6114. Available at: http://proceedings.mlr.press/v97/tan19a.html (accessed 11.01.2025).

Метод временных сегментов в задаче распознавания жестовых слов с предобученной сетью CNN-LSTM

Аннотация

Сведения об авторах

Литература

Наиболее читаемые статьи этого автора (авторов)