Экспериментальный анализ моделей трансферного обучения для классификации изображений
Аннотация
Настоящее время характеризуется значительным повышением производительности в задачах классификации изображений, обусловленным использованием методов глубокого обучения. Но, как правило, эти методы требуют больших наборов аннотированных данных, что затрудняет их применение при небольших наборах. Многообещающей альтернативой преодоления проблемы стал метод трансферного обучения, используемый для оптимизации моделей глубокого обучения. Сущность оптимизации состоит в адаптации предварительно обученной нейронной сети к новой задаче средствами небольшого набора данных конкретной предметной области. Цель данной работы – сравнение производительности моделей трансферного обучения в задачах классификации изображений для разных способов их оптимизации. Выполнена квалиметрическая оценка трех отобранных моделей на двух целевых наборах данных – простом и сложном. Первая модель – MobileNetV3 от компании Google, предназначенная для устройств с ограниченными ресурсами, адаптировалась простым методом извлечения признаков. Вторая – ResNet-50, представленная компанией Microsoft Research, адаптировалась методом тонкой настройки параметров в модель под названием BigTransfer. Третья – гибридная модель, адаптировалась методом извлечения признаков, объединяет предварительно обученную ResNet-50 с преобразователем компьютерного зрения Vision Transformer для сложных изображений целевого набора. Работа содержит описание экспериментов, где построены графики производительности указанных моделей. С целью измерения производительности использовались такие оценочные метрики как точность, потери и время обучения. Результаты экспериментов выявили, что для сложного набора самой точной была гибридная модель, имеющая при этом наибольшее время обучения. Простой набор продемонстрировал лучшие значения точности в модели Big Transfer. MobileNetV3 имела схожую с ней точность, но меньшее время обучения и большую простоту использования. Проведенное исследование показало, что выбор метода оптимизации модели трансферного обучения в задачах классификации изображений на заданных целевых наборах – это компромисс между достижением высокой точности и малым временем обучения.

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.
