Метод стохастических вариационных неравенств для дообучения моделей трансформеров

Ivan Vladimirovich Sharun; Vladimir Petrovich Todarenko; Anna Vladimirovna Zykina

Метод стохастических вариационных неравенств для дообучения моделей трансформеров

Ivan Vladimirovich Sharun Омский государственный технический университет http://orcid.org/0000-0002-3643-560X
Vladimir Petrovich Todarenko Омский государственный технический университет http://orcid.org/0009-0005-7010-3800
Anna Vladimirovna Zykina Омский государственный технический университет http://orcid.org/0000-0001-9697-8342

Аннотация

Современные трансформеры (BERT, RoBERTa) широко применяются в задачах обработки естественного языка, но при дообучении, особенно при частичной разморозке слоёв, классические оптимизаторы на основе стохастического градиентного спуска (SGD) испытывают проблемы: негладкие активации и обнуление градиентов замедляют и дестабилизируют обучение. В работе рассматривается метод на основе стохастического вариационного неравенства (SVI), не зависящий от производных активаций, как более устойчивый и быстрый способ дообучения трансформеров. Проверка выполняется на задаче бинарной классификации тональности (SST-2).
В работе для проведения экспериментов используется предобученная модель BERT и датасет SST-2. Между классическим стохастическим градиентным спуском и методом на основе стохастического вариационного неравенства производится сравнение в двух режимах дообучения: обновление только классификатора и обновление классификатора вместе с несколькими верхними слоями модели. Оценка производится по точности на обучающей и валидационной выборках при нескольких запусках для учёта нестабильности.
Метод SVI показывает заметное преимущество над стохастическим градиентным спуском в обоих режимах: при обновлении лишь классификатора метод SVI даёт существенно выше точность на валидации, а при разморозке верхних слоёв преимущество становится ещё больше. Кроме того, метод SVI обеспечивает более быструю и стабильную сходимость и меньшую вариативность результатов между запусками.
Метод SVI демонстрирует значимые преимущества при тонкой настройке трансформеров: повышенную точность, устойчивую сходимость и низкую дисперсию результатов. Преимущество связано с отсутствием зависимости от производных активаций и, как следствие, с устранением проблем нулевых градиентов. Таким образом, метод SVI выглядит перспективным решением для быстрого и надёжного дообучения больших языковых моделей. Основные ограничения подхода — необходимость дополнительной реализации метода и ограниченная поддержка в существующих фреймворках для глубокого обучения.

Сведения об авторах

Ivan Vladimirovich Sharun, Омский государственный технический университет

старший преподаватель кафедры прикладной математики и фундаментальной информатики факультета информационных технологий и компьютерных систем

Vladimir Petrovich Todarenko, Омский государственный технический университет

магистрант кафедры прикладной математики и фундаментальной информатики факультета информационных технологий и компьютерных систем

Anna Vladimirovna Zykina, Омский государственный технический университет

заведующий кафедрой прикладной математики и фундаментальной информатики факультета информационных технологий и компьютерных систем, доктор физико-математических наук, профессор

Опубликована

2025-12-29

Как цитировать

SHARUN, Ivan Vladimirovich; TODARENKO, Vladimir Petrovich; ZYKINA, Anna Vladimirovna. Метод стохастических вариационных неравенств для дообучения моделей трансформеров. Современные информационные технологии и ИТ-образование, [S.l.], v. 21, n. 4, dec. 2025. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/1274>. Дата доступа: 28 feb. 2026

Форматы библиографических ссылок

Выпуск

Том 21 № 4 (2025): Современные информационные технологии и ИТ-образование

Раздел

Научное программное обеспечение в образовании и науке

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.

Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.

Метод стохастических вариационных неравенств для дообучения моделей трансформеров

Аннотация

Сведения об авторах

Наиболее читаемые статьи этого автора (авторов)