Метод стохастических вариационных неравенств для дообучения моделей трансформеров

Аннотация

Современные трансформеры (BERT, RoBERTa) широко применяются в задачах обработки естественного языка, но при дообучении, особенно при частичной разморозке слоёв, классические оптимизаторы на основе стохастического градиентного спуска (SGD) испытывают проблемы: негладкие активации и обнуление градиентов замедляют и дестабилизируют обучение. В работе рассматривается метод на основе стохастического вариационного неравенства (SVI), не зависящий от производных активаций, как более устойчивый и быстрый способ дообучения трансформеров. Проверка выполняется на задаче бинарной классификации тональности (SST-2).
В работе для проведения экспериментов используется предобученная модель BERT и датасет SST-2. Между классическим стохастическим градиентным спуском и методом на основе стохастического вариационного неравенства производится сравнение в двух режимах дообучения: обновление только классификатора и обновление классификатора вместе с несколькими верхними слоями модели. Оценка производится по точности на обучающей и валидационной выборках при нескольких запусках для учёта нестабильности.
Метод SVI показывает заметное преимущество над стохастическим градиентным спуском в обоих режимах: при обновлении лишь классификатора метод SVI даёт существенно выше точность на валидации, а при разморозке верхних слоёв преимущество становится ещё больше. Кроме того, метод SVI обеспечивает более быструю и стабильную сходимость и меньшую вариативность результатов между запусками.
Метод SVI демонстрирует значимые преимущества при тонкой настройке трансформеров: повышенную точность, устойчивую сходимость и низкую дисперсию результатов. Преимущество связано с отсутствием зависимости от производных активаций и, как следствие, с устранением проблем нулевых градиентов. Таким образом, метод SVI выглядит перспективным решением для быстрого и надёжного дообучения больших языковых моделей. Основные ограничения подхода — необходимость дополнительной реализации метода и ограниченная поддержка в существующих фреймворках для глубокого обучения.

Сведения об авторах

Ivan Vladimirovich Sharun, Омский государственный технический университет

старший преподаватель кафедры прикладной математики и фундаментальной информатики факультета информационных технологий и компьютерных систем

Vladimir Petrovich Todarenko, Омский государственный технический университет

магистрант кафедры прикладной математики и фундаментальной информатики факультета информационных технологий и компьютерных систем

Anna Vladimirovna Zykina, Омский государственный технический университет

заведующий кафедрой прикладной математики и фундаментальной информатики факультета информационных технологий и компьютерных систем, доктор физико-математических наук, профессор

Опубликована
2025-12-29
Как цитировать
SHARUN, Ivan Vladimirovich; TODARENKO, Vladimir Petrovich; ZYKINA, Anna Vladimirovna. Метод стохастических вариационных неравенств для дообучения моделей трансформеров. Современные информационные технологии и ИТ-образование, [S.l.], v. 21, n. 4, dec. 2025. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/1274>. Дата доступа: 10 jan. 2026
Раздел
Научное программное обеспечение в образовании и науке