Исследование влияния batch size на качество обучения нейронных сетей

  • Andrey Anatolyevich Lisov Южно-Уральский государственный университет (национальный исследовательский университет) http://orcid.org/0000-0001-7282-8470
  • Alexander Grigoryevich Vozmilov Южно-Уральский государственный университет (национальный исследовательский университет) http://orcid.org/0000-0001-7282-8470
  • Vil Gubaevich Urmanov Башкирский государственный аграрный университет http://orcid.org/0009-0007-8328-0392
  • Sergei Panishev Южно-Уральский государственный университет (национальный исследовательский университет) http://orcid.org/0000-0003-2753-2341

Аннотация

Нейронные сети обучаются с использованием градиентного спуска, метода оптимизации при котором оценка ошибки, используемая для обновления весов модели нейросети, рассчитывается на основе подмножества обучающего набора данных. Количество примеров из набора обучающих данных, используемых для оценки градиента ошибки, называется размером пакета (batch size), он является важным гиперпараметром, влияющим на динамику алгоритма обучения. В статье приведён анализ влияния размера пакета обучения для нейросетей разного типов – нейросетей глубокого обучения, свёрточных, рекуррентных и больших языковых моделей на точность прогнозирования. Однако как выяснилось в процессе исследования неоднократное упоминание в источниках того, что размер batch size влияет на скорость обучения, на практике данное высказывание не было подтверждено экспериментальными значениями. С этой целью был проведён эксперимент проверки влияния размера пакета обучающей выборки не только на точность распознавания (accuracy) и величину потерь (loss – разница между полученным значением предсказания и реальным), но и на затраченное время на процесс обучения. Результаты исследования размера пакета выявили, что он оказывает решающее влияние на точность распознавания изображений свёрточных нейронных сетей, рекуррентных, нейросетей глубокого обучения и больших языковых моделей. Чем больше значение параметра, тем выше точность прогнозирования. С другой стороны, большое значение размера пакета приводит к увеличению требований к вычислительным ресурсам.

Сведения об авторах

Andrey Anatolyevich Lisov, Южно-Уральский государственный университет (национальный исследовательский университет)

аспирант кафедры электропривода, мехатроники и электромеханики

Alexander Grigoryevich Vozmilov, Южно-Уральский государственный университет (национальный исследовательский университет)

профессор кафедры электропривода, мехатроники и электромеханики, доктор технических наук

Vil Gubaevich Urmanov, Башкирский государственный аграрный университет

доцент кафедры прикладной механики и компьютерного инжиниринга, кандидат технических наук

Sergei Panishev, Южно-Уральский государственный университет (национальный исследовательский университет)

аспирант кафедры электропривода, мехатроники и электромеханики

Опубликована
2023-06-30
Как цитировать
LISOV, Andrey Anatolyevich et al. Исследование влияния batch size на качество обучения нейронных сетей. Современные информационные технологии и ИТ-образование, [S.l.], v. 19, n. 2, june 2023. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/952>. Дата доступа: 22 sep. 2023
Раздел
Теоретические вопросы информатики, прикладной математики, компьютерных наук