Применение больших языковых моделей для разметки наборов данных в задачах обработки естественного языка

Krystina Alexandrovna Makoveichuk; Alexander Vasilevich Olifirov; Georgiy Maximovich Demenchuk; Yan Tarasovich Makoveichuk

doi:10.25559/SITITO.019.202303.598-606

Krystina Alexandrovna Makoveichuk Финансовый университет при Правительстве Российской Федерации http://orcid.org/0000-0003-1258-0463
Alexander Vasilevich Olifirov Крымский федеральный университет им. В.И. Вернадского http://orcid.org/0000-0002-5288-2725
Georgiy Maximovich Demenchuk Финансовый университет при Правительстве Российской Федерации http://orcid.org/0000-0003-2849-982X
Yan Tarasovich Makoveichuk Финансовый университет при Правительстве Российской Федерации http://orcid.org/0000-0002-8919-7828

DOI: https://doi.org/10.25559/SITITO.019.202303.598-606

Аннотация

В статье предложена методика использования больших языковых моделей компании OpenAI для разметки текстовых данных через доступный программный интерфейс. Разработанная методика является первым этапом решения задачи из категории обработки естественного языка. Задача в целом состоит в классификации курсов, которые могут быть многоклассовыми или с множественными метками, с помощью алгоритмов машинного обучения. Предоставленные слабоструктурированные данные о курсах включали большое количество различных колонок и имели размер 275811 строк, однако категории, подкатегории и предметы не были определены. Их разметка была выполнена с помощью большой языковой модели text-davinci-003, с использованием функций, написанных на языке Python. Была проведена нормализация результатов разметки и выполнен их анализ. Для проверки качества работы модели выборочно часть курсов для каждого предмета в исходных данных была размечена вручную. Более 98% курсов были классифицированы верно, следовательно, данную методику автоматизированной разметки данных с помощью большой языковой модели можно рекомендовать к использованию в дальнейшем.

Сведения об авторах

Krystina Alexandrovna Makoveichuk, Финансовый университет при Правительстве Российской Федерации

доцент Департамента анализа данных и машинного обучения, кандидат экономических наук, доцент

Alexander Vasilevich Olifirov, Крымский федеральный университет им. В.И. Вернадского

профессор кафедры экономики и финансов Гуманитарно-педагогической академии, доктор экономических наук, профессор

Georgiy Maximovich Demenchuk, Финансовый университет при Правительстве Российской Федерации

бакалавр (выпускник) Департамента анализа данных и машинного обучения

Yan Tarasovich Makoveichuk, Финансовый университет при Правительстве Российской Федерации

магистрант Департамента анализа данных и машинного обучения

Литература

1. Tsimpoukelli M., Menick J., Cabi S., Ali Eslami S. M., Vinyals O., Hill F. Multimodal Few-Shot Learning with Frozen Language Models. In: Ranzato M. et al. (eds.) 35th Conference on Neural Information Processing Systems (NeurIPS 2021). Curran Associates, Inc.; 2021. Vol. 34. P. 200-212. Available at: https://proceedings.neurips.cc/paper_files/paper/2021/file/01b7575c38dac42f3cfb7d500438b875-Paper.pdf (accessed 14.09.2023).
2. Zhengyuan Y., Li L., Lin K., Wang J., Lin Ch.-Ch., Liu Z., Wang L. GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation. arXiv:2401.04092. 2024. https://doi.org/10.48550/arXiv.2401.04092
3. Kiela D., Bhooshan S., Firooz H., Perez E., Testuggine D. Supervised Multimodal Bitransformers for Classifying Images and Text. arXiv:1909.02950. 2019. https://doi.org/10.48550/arXiv.1909.02950
4. Zhao W.X. et al. A Survey of Large Language Models. arXiv:2303.18223. 2023. https://doi.org/10.48550/arXiv.2303.18223
5. Naveed H. A comprehensive overview of large language models. arXiv:2307.06435. 2024. https://doi.org/10.48550/arXiv.2307.06435
6. Namiot D.E., Ilyushin E.A., Chizhov I.V. Artificial Intelligence and Cybersecurity. International Journal of Open Information Technologies. 2022;10(9):135-147. (In Russ., abstract in Eng.) EDN: DYQWEH
7. Namiot D.E. Schemes of attacks on machine learning models. International Journal of Open Information Technologies. 2023;11(5):68-86. (In Russ., abstract in Eng.) EDN: YVRDOB
8. Bender E.M. et al. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? In: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT '21). New York, NY, USA: Association for Computing Machinery; 2021. p. 610-623. https://doi.org/10.1145/3442188.3445922
9. Arora S., Goyal A. A Theory for Emergence of Complex Skills in Language Models. arXiv:2307.15936. 2023. https://doi.org/10.48550/arXiv.2307.15936
10. Li H. et al. Privacy in Large Language Models: Attacks, Defenses and Future Directions. arXiv:2310.10383. 2023. https://doi.org/10.48550/arXiv.2310.10383
11. Navigli R., Conia S., Ross B. Biases in Large Language Models: Origins, Inventory, and Discussion. Journal of Data and Information Quality. 2023;15(2):10. https://doi.org/10.1145/3597307
12. Caines A. et al. On the application of Large Language Models for language teaching and assessment technology. CEUR Workshop Proceedings. 2023;3487:173-197. Available at: https://ceur-ws.org/Vol-3487/paper12.pdf (accessed 14.09.2023).
13. Kazakova M.A., Sultanova A.P. Analysis of natural language processing technology: modern problems and approaches. Advanced Engineering Research (Rostov-on-Don). 2022;22(2):169-176. https:doi.org/10.23947/2687-1653-2022-22-2-169-176
14. Ray P.P. ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope. Internet of Things and Cyber-Physical Systems. 2023;3:121-154. https://doi.org/10.1016/j.iotcps.2023.04.003
15. Alkhalifa R., Kochkina E., Zubiaga A. Building for tomorrow: Assessing the temporal persistence of text classifiers. Information Processing & Management. 2023;60(2):103200. https://doi.org/10.1016/j.ipm.2022.103200
16. Du Y., Ma Y. -F., Xie Z., Li M. Beyond Lexical Consistency: Preserving Semantic Consistency for Program Translation. In: 2023 IEEE International Conference on Data Mining (ICDM). Shanghai, China: IEEE Computer Society; 2023. p. 91-100. https://doi.org/10.1109/ICDM58522.2023.00018
17. Li G. et al. Human-Centered Reinforcement Learning: A Survey. IEEE Transactions on Human-Machine Systems. 2019;49(4):337-349. https://doi.org/10.1109/THMS.2019.2912447
18. Markeev M.V. Metodika avtomatizirovannoj razmetki izobrazhenij i nahozhdeniya klyuchevyh slov [methods of automated image markup and keyword finding]. Mezhdunarodnyj zhurnal gumanitarnyh i estestvennyh nauk = International Journal of Humanities and Natural Sciences. 2022;11-2(74):115-120. (In Russ., abstract in Eng.) https:doi.org/10.24412/2500-1000-2022-11-2-115-120
19. Heyman T., Heyman G. The impact of ChatGPT on human data collection: A case study involving typicality norming data. Behavior Research Methods. 2023. https://doi.org/10.3758/s13428-023-02235-w
20. Kasneci E. et al. ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences. 2023;103:102274. https://doi.org/10.1016/j.lindif.2023.102274
21. Dwivedi Y.K. et al. Opinion Paper: "So what if ChatGPT wrote it?" Multidisciplinary perspectives on opportunities, challenges and implications of generative conversational AI for research, practice and policy. International Journal of Information Management. 2023;71:102642. https://doi.org/10.1016/j.ijinfomgt.2023.102642
22. Salnikova K.V. Analiz massiva dannyh s pomoshch'yu instrumenta vizualizacii yashchik s usami [The analysis of data amount using the visualization tool "box-and-whisker"]. Universum: ekonomika i yurisprudenciya = Universum: economics and law. 2021;(6):11-17. (In Russ., abstract in Eng.) EDN: APSOIG
23. Darmanyan A.P. Ispol'zovanie pokazatelej opisatel'noj statistiki dlya harakteristiki empiricheskih vyborok makroekonomicheskih indikatorov [The use of descriptive statistics for the characteristics of the empirical samples macroeconomic indicators]. Ekonomika regiona = Economy of Regions. 2013;(2):157-163. (In Russ., abstract in Eng.) https://doi.org/10.17059/2013-2-16
24. Petrenko S., Petrenko A., Makoveichuk K.A., Olifirov A. Development of a Cyber-Resistant Platform for the Internet of Things Based on Dynamic Control Technology. In: Singh P.K., Veselov G., Vyatkin V., Pljonkin A., Dodero J.M., Kumar Y. (eds.) Futuristic Trends in Network and Communication Technologies. FTNCT 2020. Communications in Computer and Information Science. Vol. 1395. Singapore: Springer; 2021. p. 144-154. https://doi.org/10.1007/978-981-16-1480-4_13
25. Makoveichuk K., Oleinikov N., Gorbunova N., Ponomareva E., Makoveichuk Ya. Analysis and Synthesis of Educational Content of Courses in Moodle LMS Based on the Competence Approach of FSES. CEUR Workshop Proceedings. 2021;3057:176-183. Available at: https://ceur-ws.org/Vol-3057/paper19.pdf (accessed 14.09.2023).