Применение больших языковых моделей для разметки наборов данных в задачах обработки естественного языка
Аннотация
В статье предложена методика использования больших языковых моделей компании OpenAI для разметки текстовых данных через доступный программный интерфейс. Разработанная методика является первым этапом решения задачи из категории обработки естественного языка. Задача в целом состоит в классификации курсов, которые могут быть многоклассовыми или с множественными метками, с помощью алгоритмов машинного обучения. Предоставленные слабоструктурированные данные о курсах включали большое количество различных колонок и имели размер 275811 строк, однако категории, подкатегории и предметы не были определены. Их разметка была выполнена с помощью большой языковой модели text-davinci-003, с использованием функций, написанных на языке Python. Была проведена нормализация результатов разметки и выполнен их анализ. Для проверки качества работы модели выборочно часть курсов для каждого предмета в исходных данных была размечена вручную. Более 98% курсов были классифицированы верно, следовательно, данную методику автоматизированной разметки данных с помощью большой языковой модели можно рекомендовать к использованию в дальнейшем.
Литература
2. Zhengyuan Y., Li L., Lin K., Wang J., Lin Ch.-Ch., Liu Z., Wang L. GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation. arXiv:2401.04092. 2024. https://doi.org/10.48550/arXiv.2401.04092
3. Kiela D., Bhooshan S., Firooz H., Perez E., Testuggine D. Supervised Multimodal Bitransformers for Classifying Images and Text. arXiv:1909.02950. 2019. https://doi.org/10.48550/arXiv.1909.02950
4. Zhao W.X. et al. A Survey of Large Language Models. arXiv:2303.18223. 2023. https://doi.org/10.48550/arXiv.2303.18223
5. Naveed H. A comprehensive overview of large language models. arXiv:2307.06435. 2024. https://doi.org/10.48550/arXiv.2307.06435
6. Namiot D.E., Ilyushin E.A., Chizhov I.V. Artificial Intelligence and Cybersecurity. International Journal of Open Information Technologies. 2022;10(9):135-147. (In Russ., abstract in Eng.) EDN: DYQWEH
7. Namiot D.E. Schemes of attacks on machine learning models. International Journal of Open Information Technologies. 2023;11(5):68-86. (In Russ., abstract in Eng.) EDN: YVRDOB
8. Bender E.M. et al. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? In: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT '21). New York, NY, USA: Association for Computing Machinery; 2021. p. 610-623. https://doi.org/10.1145/3442188.3445922
9. Arora S., Goyal A. A Theory for Emergence of Complex Skills in Language Models. arXiv:2307.15936. 2023. https://doi.org/10.48550/arXiv.2307.15936
10. Li H. et al. Privacy in Large Language Models: Attacks, Defenses and Future Directions. arXiv:2310.10383. 2023. https://doi.org/10.48550/arXiv.2310.10383
11. Navigli R., Conia S., Ross B. Biases in Large Language Models: Origins, Inventory, and Discussion. Journal of Data and Information Quality. 2023;15(2):10. https://doi.org/10.1145/3597307
12. Caines A. et al. On the application of Large Language Models for language teaching and assessment technology. CEUR Workshop Proceedings. 2023;3487:173-197. Available at: https://ceur-ws.org/Vol-3487/paper12.pdf (accessed 14.09.2023).
13. Kazakova M.A., Sultanova A.P. Analysis of natural language processing technology: modern problems and approaches. Advanced Engineering Research (Rostov-on-Don). 2022;22(2):169-176. https:doi.org/10.23947/2687-1653-2022-22-2-169-176
14. Ray P.P. ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope. Internet of Things and Cyber-Physical Systems. 2023;3:121-154. https://doi.org/10.1016/j.iotcps.2023.04.003
15. Alkhalifa R., Kochkina E., Zubiaga A. Building for tomorrow: Assessing the temporal persistence of text classifiers. Information Processing & Management. 2023;60(2):103200. https://doi.org/10.1016/j.ipm.2022.103200
16. Du Y., Ma Y. -F., Xie Z., Li M. Beyond Lexical Consistency: Preserving Semantic Consistency for Program Translation. In: 2023 IEEE International Conference on Data Mining (ICDM). Shanghai, China: IEEE Computer Society; 2023. p. 91-100. https://doi.org/10.1109/ICDM58522.2023.00018
17. Li G. et al. Human-Centered Reinforcement Learning: A Survey. IEEE Transactions on Human-Machine Systems. 2019;49(4):337-349. https://doi.org/10.1109/THMS.2019.2912447
18. Markeev M.V. Metodika avtomatizirovannoj razmetki izobrazhenij i nahozhdeniya klyuchevyh slov [methods of automated image markup and keyword finding]. Mezhdunarodnyj zhurnal gumanitarnyh i estestvennyh nauk = International Journal of Humanities and Natural Sciences. 2022;11-2(74):115-120. (In Russ., abstract in Eng.) https:doi.org/10.24412/2500-1000-2022-11-2-115-120
19. Heyman T., Heyman G. The impact of ChatGPT on human data collection: A case study involving typicality norming data. Behavior Research Methods. 2023. https://doi.org/10.3758/s13428-023-02235-w
20. Kasneci E. et al. ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences. 2023;103:102274. https://doi.org/10.1016/j.lindif.2023.102274
21. Dwivedi Y.K. et al. Opinion Paper: "So what if ChatGPT wrote it?" Multidisciplinary perspectives on opportunities, challenges and implications of generative conversational AI for research, practice and policy. International Journal of Information Management. 2023;71:102642. https://doi.org/10.1016/j.ijinfomgt.2023.102642
22. Salnikova K.V. Analiz massiva dannyh s pomoshch'yu instrumenta vizualizacii yashchik s usami [The analysis of data amount using the visualization tool "box-and-whisker"]. Universum: ekonomika i yurisprudenciya = Universum: economics and law. 2021;(6):11-17. (In Russ., abstract in Eng.) EDN: APSOIG
23. Darmanyan A.P. Ispol'zovanie pokazatelej opisatel'noj statistiki dlya harakteristiki empiricheskih vyborok makroekonomicheskih indikatorov [The use of descriptive statistics for the characteristics of the empirical samples macroeconomic indicators]. Ekonomika regiona = Economy of Regions. 2013;(2):157-163. (In Russ., abstract in Eng.) https://doi.org/10.17059/2013-2-16
24. Petrenko S., Petrenko A., Makoveichuk K.A., Olifirov A. Development of a Cyber-Resistant Platform for the Internet of Things Based on Dynamic Control Technology. In: Singh P.K., Veselov G., Vyatkin V., Pljonkin A., Dodero J.M., Kumar Y. (eds.) Futuristic Trends in Network and Communication Technologies. FTNCT 2020. Communications in Computer and Information Science. Vol. 1395. Singapore: Springer; 2021. p. 144-154. https://doi.org/10.1007/978-981-16-1480-4_13
25. Makoveichuk K., Oleinikov N., Gorbunova N., Ponomareva E., Makoveichuk Ya. Analysis and Synthesis of Educational Content of Courses in Moodle LMS Based on the Competence Approach of FSES. CEUR Workshop Proceedings. 2021;3057:176-183. Available at: https://ceur-ws.org/Vol-3057/paper19.pdf (accessed 14.09.2023).
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.