Применение больших языковых моделей для разметки наборов данных в задачах обработки естественного языка

Аннотация

В статье предложена методика использования больших языковых моделей компании OpenAI для разметки текстовых данных через доступный программный интерфейс. Разработанная методика является первым этапом решения задачи из категории обработки естественного языка. Задача в целом состоит в классификации курсов, которые могут быть многоклассовыми или с множественными метками, с помощью алгоритмов машинного обучения. Предоставленные слабоструктурированные данные о курсах включали большое количество различных колонок и имели размер 275811 строк, однако категории, подкатегории и предметы не были определены. Их разметка была выполнена с помощью большой языковой модели text-davinci-003, с использованием функций, написанных на языке Python. Была проведена нормализация результатов разметки и выполнен их анализ. Для проверки качества работы модели выборочно часть курсов для каждого предмета в исходных данных была размечена вручную. Более 98% курсов были классифицированы верно, следовательно, данную методику автоматизированной разметки данных с помощью большой языковой модели можно рекомендовать к использованию в дальнейшем.

Сведения об авторах

Krystina Alexandrovna Makoveichuk, Финансовый университет при Правительстве Российской Федерации

доцент Департамента анализа данных и машинного обучения, кандидат экономических наук, доцент

Alexander Vasilevich Olifirov, Крымский федеральный университет им. В.И. Вернадского

профессор кафедры экономики и финансов Гуманитарно-педагогической академии, доктор экономических наук, профессор

Georgiy Maximovich Demenchuk, Финансовый университет при Правительстве Российской Федерации

бакалавр (выпускник) Департамента анализа данных и машинного обучения

Yan Tarasovich Makoveichuk, Финансовый университет при Правительстве Российской Федерации

магистрант Департамента анализа данных и машинного обучения

Опубликована
2023-10-15
Как цитировать
MAKOVEICHUK, Krystina Alexandrovna et al. Применение больших языковых моделей для разметки наборов данных в задачах обработки естественного языка. Современные информационные технологии и ИТ-образование, [S.l.], v. 19, n. 3, oct. 2023. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/1014>. Дата доступа: 27 apr. 2024