Метод временных сегментов в задаче распознавания жестовых слов с предобученной сетью CNN-LSTM

Аннотация

Распознавание жестового языка играет важную роль в обеспечении доступности и инклюзивности для людей с нарушением слуха, создавая условия для более эффективной коммуникации в социальной и профессиональной среде. Однако обработка видеоданных в задачах классификации жестов требует значительных вычислительных ресурсов из-за необходимости анализа большого количества кадров, что приводит к увеличению времени обучения и потребления памяти. Кроме того, видеоданные содержат избыточные кадры, не несущие важной информации для распознавания жестов, что дополнительно усложняет процесс обработки и приводит к неэффективному использованию ресурсов.
В данной работе представлена модель автоматического распознавания слов жестового языка, в основе которой лежит метод временных сегментов (TSN). Этот метод позволяет отбирать ключевые кадры из видеопоследовательностей, сокращая избыточные данные и значительно уменьшая время обучения и использование оперативной памяти без значительного ухудшения качества классификации. В качестве базовой технологии использовалась архитектура CNN-LSTM, где сверточная сеть ResNet отвечает за извлечение пространственных признаков, а рекуррентный слой LSTM обрабатывает временные зависимости в последовательностях.
В качестве данных использовался датасет WLASL, содержащий 6 классов жестов. Оценка производительности модели проводилась с использованием метрик Accuracy и F1-мера, что позволило объективно сравнить её с альтернативными подходами. В ходе экспериментов проведён сравнительный анализ различных предварительно обученных версий ResNet (ResNet18, ResNet34, ResNet50, ResNet101, ResNet152) и выявлена оптимальная конфигурация модели.
Результаты показали, что применение TSN привело к значительному снижению вычислительных затрат: время обучения сократилось в 2.173 раза, использование GPU RAM – в 0.5514 раза, а системной памяти – в 1.027 раза. При этом модель с TSN продемонстрировала даже более высокую точность по сравнению с версией без TSN, что подтверждает эффективность метода в задаче классификации жестового языка.
Таким образом, комбинация CNN-LSTM с ResNet18 и TSN обеспечивает не только высокую точность, но и эффективное использование вычислительных ресурсов. Полученные результаты могут служить основой для дальнейшего развития систем автоматического распознавания жестового языка, включая масштабирование на более крупные датасеты и интеграцию с мультимодальными системами обработки жестов.

Сведения об авторах

Seungju Lee, Московский государственный университет имени М.В. Ломоносова

студент факультета вычислительной математики и кибернетики

Irina Nikolaevna Polyakova, Московский государственный университет имени М.В. Ломоносова

доцент кафедры алгоритмических языков факультета вычислительной математики и кибернетики, кандидат физико-математических наук, доцент

Опубликована
2025-04-28
Как цитировать
LEE, Seungju; POLYAKOVA, Irina Nikolaevna. Метод временных сегментов в задаче распознавания жестовых слов с предобученной сетью CNN-LSTM. Современные информационные технологии и ИТ-образование, [S.l.], v. 21, n. 1, apr. 2025. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/1146>. Дата доступа: 02 june 2025
Раздел
Исследования и разработки в области новых ИТ и их приложений