Сравнительный анализ архитектур ResNet и типов спектральных данных для классификации речи пациентов после гемиглоссэктомии

  • Svetlana Dmitrievna Tomilina Томский государственный университет систем управления и радиоэлектроники http://orcid.org/0009-0002-2526-6377
  • Dariya Igorevna Novokhrestova Томский государственный университет систем управления и радиоэлектроники http://orcid.org/0000-0002-4931-1681
  • Pavel Yuryevich Laptev Томский государственный университет систем управления и радиоэлектроники http://orcid.org/0000-0002-5305-3312
  • Evgeny Yuryevich Kostyuchenko Томский государственный университет систем управления и радиоэлектроники http://orcid.org/0000-0001-8000-2716

Аннотация

Введение. Рак языка – серьёзная онкологическая проблема, лечение которой часто сопровождается нарушениями речевых функций. Гемиглоссэктомия, как основной метод хирургического вмешательства, требует длительной реабилитации, а традиционные методы оценки восстановления речи основываются на субъективных наблюдениях. В данной работе предложен упрощенный метод оценки речи пациентов после гемиглоссэктомии с использованием нейронных сетей ResNet, что позволяет перейти к объективному анализу на основе спектральных данных и повысить точность диагностики.
Материалы и методы. Исследование основано на аудиозаписях 29 пациентов, перенёсших гемиглоссэктомию с реконструкцией и без неё. Записи были сделаны на трёх этапах: до операции, сразу после неё и после трёхмесячной реабилитации. Аудиофайлы преобразовывались в три типа спектральных данных: спектрограммы, мел-спектрограммы и MFCC (мел-частотные кепстральные коэффициенты). В ходе обучения моделей применялись различные архитектуры семейства ResNet – 18, 34, 50, 101 и 152 – с вариацией параметров dropout и размеров входных изображений. Данные были случайным образом разделены на обучающий (70%), проверочный (15%) и тестовый (15%) наборы.
Результаты исследования. Максимальная точность классификации составила 0,69 для полного набора данных (ResNet-152), 0,71 для пациентов без реконструкции и 0,77 для пациентов с реконструкцией (ResNet-34). Разделение данных по типу операции позволило улучшить точность до 0,7692 для пациентов с реконструкцией при использовании мел-спектрограмм и ResNet-34, что подтверждает их преимущество для анализа нелинейных изменений частотных характеристик.
Обсуждение и заключение. Предложенный метод позволяет упростить оценку речи, обеспечивая объективный и стандартизированный мониторинг динамики восстановления речевых функций. Это снижает нагрузку на медицинский персонал и повышает эффективность реабилитационных программ. Для дальнейшего улучшения точности планируется реализовать ансамблевый подход, объединяющий результаты анализа различных спектральных представлений, а также анализировать только значимые части спектрограмм, что позволит повысить надёжность классификации.

Сведения об авторах

Svetlana Dmitrievna Tomilina, Томский государственный университет систем управления и радиоэлектроники

преподаватель кафедры комплексной информационной безопасности электронно-вычислительных систем

Dariya Igorevna Novokhrestova, Томский государственный университет систем управления и радиоэлектроники

доцент кафедры комплексной информационной безопасности электронно-вычислительных систем, кандидат технических наук

Pavel Yuryevich Laptev, Томский государственный университет систем управления и радиоэлектроники

преподаватель кафедры безопасности информационных систем

Evgeny Yuryevich Kostyuchenko, Томский государственный университет систем управления и радиоэлектроники

и.о. заведующего кафедры безопасности информационных систем, кандидат технических наук, доцент

Опубликована
2025-10-13
Как цитировать
TOMILINA, Svetlana Dmitrievna et al. Сравнительный анализ архитектур ResNet и типов спектральных данных для классификации речи пациентов после гемиглоссэктомии. Современные информационные технологии и ИТ-образование, [S.l.], v. 21, n. 3, oct. 2025. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/1227>. Дата доступа: 14 feb. 2026
Раздел
Исследования и разработки в области новых ИТ и их приложений