Метод временных сегментов в задаче распознавания жестовых слов с предобученной сетью CNN-LSTM
Аннотация
Распознавание жестового языка играет важную роль в обеспечении доступности и инклюзивности для людей с нарушением слуха, создавая условия для более эффективной коммуникации в социальной и профессиональной среде. Однако обработка видеоданных в задачах классификации жестов требует значительных вычислительных ресурсов из-за необходимости анализа большого количества кадров, что приводит к увеличению времени обучения и потребления памяти. Кроме того, видеоданные содержат избыточные кадры, не несущие важной информации для распознавания жестов, что дополнительно усложняет процесс обработки и приводит к неэффективному использованию ресурсов.
В данной работе представлена модель автоматического распознавания слов жестового языка, в основе которой лежит метод временных сегментов (TSN). Этот метод позволяет отбирать ключевые кадры из видеопоследовательностей, сокращая избыточные данные и значительно уменьшая время обучения и использование оперативной памяти без значительного ухудшения качества классификации. В качестве базовой технологии использовалась архитектура CNN-LSTM, где сверточная сеть ResNet отвечает за извлечение пространственных признаков, а рекуррентный слой LSTM обрабатывает временные зависимости в последовательностях.
В качестве данных использовался датасет WLASL, содержащий 6 классов жестов. Оценка производительности модели проводилась с использованием метрик Accuracy и F1-мера, что позволило объективно сравнить её с альтернативными подходами. В ходе экспериментов проведён сравнительный анализ различных предварительно обученных версий ResNet (ResNet18, ResNet34, ResNet50, ResNet101, ResNet152) и выявлена оптимальная конфигурация модели.
Результаты показали, что применение TSN привело к значительному снижению вычислительных затрат: время обучения сократилось в 2.173 раза, использование GPU RAM – в 0.5514 раза, а системной памяти – в 1.027 раза. При этом модель с TSN продемонстрировала даже более высокую точность по сравнению с версией без TSN, что подтверждает эффективность метода в задаче классификации жестового языка.
Таким образом, комбинация CNN-LSTM с ResNet18 и TSN обеспечивает не только высокую точность, но и эффективное использование вычислительных ресурсов. Полученные результаты могут служить основой для дальнейшего развития систем автоматического распознавания жестового языка, включая масштабирование на более крупные датасеты и интеграцию с мультимодальными системами обработки жестов.

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.