Сравнительный анализ архитектур ResNet и типов спектральных данных для классификации речи пациентов после гемиглоссэктомии
Аннотация
Введение. Рак языка – серьёзная онкологическая проблема, лечение которой часто сопровождается нарушениями речевых функций. Гемиглоссэктомия, как основной метод хирургического вмешательства, требует длительной реабилитации, а традиционные методы оценки восстановления речи основываются на субъективных наблюдениях. В данной работе предложен упрощенный метод оценки речи пациентов после гемиглоссэктомии с использованием нейронных сетей ResNet, что позволяет перейти к объективному анализу на основе спектральных данных и повысить точность диагностики.
Материалы и методы. Исследование основано на аудиозаписях 29 пациентов, перенёсших гемиглоссэктомию с реконструкцией и без неё. Записи были сделаны на трёх этапах: до операции, сразу после неё и после трёхмесячной реабилитации. Аудиофайлы преобразовывались в три типа спектральных данных: спектрограммы, мел-спектрограммы и MFCC (мел-частотные кепстральные коэффициенты). В ходе обучения моделей применялись различные архитектуры семейства ResNet – 18, 34, 50, 101 и 152 – с вариацией параметров dropout и размеров входных изображений. Данные были случайным образом разделены на обучающий (70%), проверочный (15%) и тестовый (15%) наборы.
Результаты исследования. Максимальная точность классификации составила 0,69 для полного набора данных (ResNet-152), 0,71 для пациентов без реконструкции и 0,77 для пациентов с реконструкцией (ResNet-34). Разделение данных по типу операции позволило улучшить точность до 0,7692 для пациентов с реконструкцией при использовании мел-спектрограмм и ResNet-34, что подтверждает их преимущество для анализа нелинейных изменений частотных характеристик.
Обсуждение и заключение. Предложенный метод позволяет упростить оценку речи, обеспечивая объективный и стандартизированный мониторинг динамики восстановления речевых функций. Это снижает нагрузку на медицинский персонал и повышает эффективность реабилитационных программ. Для дальнейшего улучшения точности планируется реализовать ансамблевый подход, объединяющий результаты анализа различных спектральных представлений, а также анализировать только значимые части спектрограмм, что позволит повысить надёжность классификации.

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.
