Метод стохастических вариационных неравенств для дообучения моделей трансформеров
Аннотация
Современные трансформеры (BERT, RoBERTa) широко применяются в задачах обработки естественного языка, но при дообучении, особенно при частичной разморозке слоёв, классические оптимизаторы на основе стохастического градиентного спуска (SGD) испытывают проблемы: негладкие активации и обнуление градиентов замедляют и дестабилизируют обучение. В работе рассматривается метод на основе стохастического вариационного неравенства (SVI), не зависящий от производных активаций, как более устойчивый и быстрый способ дообучения трансформеров. Проверка выполняется на задаче бинарной классификации тональности (SST-2).
В работе для проведения экспериментов используется предобученная модель BERT и датасет SST-2. Между классическим стохастическим градиентным спуском и методом на основе стохастического вариационного неравенства производится сравнение в двух режимах дообучения: обновление только классификатора и обновление классификатора вместе с несколькими верхними слоями модели. Оценка производится по точности на обучающей и валидационной выборках при нескольких запусках для учёта нестабильности.
Метод SVI показывает заметное преимущество над стохастическим градиентным спуском в обоих режимах: при обновлении лишь классификатора метод SVI даёт существенно выше точность на валидации, а при разморозке верхних слоёв преимущество становится ещё больше. Кроме того, метод SVI обеспечивает более быструю и стабильную сходимость и меньшую вариативность результатов между запусками.
Метод SVI демонстрирует значимые преимущества при тонкой настройке трансформеров: повышенную точность, устойчивую сходимость и низкую дисперсию результатов. Преимущество связано с отсутствием зависимости от производных активаций и, как следствие, с устранением проблем нулевых градиентов. Таким образом, метод SVI выглядит перспективным решением для быстрого и надёжного дообучения больших языковых моделей. Основные ограничения подхода — необходимость дополнительной реализации метода и ограниченная поддержка в существующих фреймворках для глубокого обучения.

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.
