ОБЛАЧНЫЕ СЕРВИСЫ ДЛЯ ОБРАБОТКИ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ

Равиль Ильгизович Мухамедиев; Адилхан Сымагулов; Ян Игоревич Кучин; Сабина Абдуллаева; Фарида Наурузбаевна Абдолдина

doi:10.25559/SITITO.14.201804.872-880

Равиль Ильгизович Мухамедиев Институт информационных и вычислительных технологий МОН РК; Казахский национальный исследовательский технический университет имени К.И. Сатпаева; Высшая школа менеджмента и информационных систем http://orcid.org/0000-0002-3727-043X
Адилхан Сымагулов Институт информационных и вычислительных технологий МОН РК; Казахский национальный исследовательский технический университет имени К.И. Сатпаева http://orcid.org/0000-0001-9974-3215
Ян Игоревич Кучин Институт информационных и вычислительных технологий МОН РК http://orcid.org/0000-0002-5271-9071
Сабина Абдуллаева Институт информационных и вычислительных технологий МОН РК http://orcid.org/0000-0002-2212-0500
Фарида Наурузбаевна Абдолдина Казахский национальный исследовательский технический университет имени К.И. Сатпаева http://orcid.org/0000-0003-1816-6343

DOI: https://doi.org/10.25559/SITITO.14.201804.872-880

Аннотация

В работе приведены результаты экспериментов, проведенных с целью сравнительного анализа качества работы существующих облачных сервисов по обработке текстов на русском языке. В статье приводится обзор 10-ти облачных сервисов: TextRazor, RosetteTextAnalytics, EurekaEngine, CloudNaturalLanguage, Texterra, Pullenti, NER-ru, UDPipe, AOT, DeepPavlov. Количественные исследования качества работы выполнены для 6-ти из них. В процессе оценки сервисов анализировалось выполнение таких функций, как частеречная разметка, анализ тональности, распознавание именованных сущностей и категоризация текстов. Для сравнительной оценки качества работы сервисов были использованы материалы соревнований: factRuEval-2016 (выявление именованных сущностей), AlemResearch (тональность) и корпуса текстов, Taiga и OpenCorpora (морфологическая разметка). Качество распознавания именованных сущностей оценивалось путем расчета параметров Accuracy, Precision, Recall и F1.
В результате проведенного исследования показано, что при решении задач обработки текста на русском языке для распознавания именованных сущностей и определения тональности текста наилучший результат показывает сервис EurekaEngine, а для частеречной разметки текста – сервис RosetteTextAnalytics, для категоризации текста – сервис TextRazor.

Сведения об авторах

Равиль Ильгизович Мухамедиев, Институт информационных и вычислительных технологий МОН РК; Казахский национальный исследовательский технический университет имени К.И. Сатпаева; Высшая школа менеджмента и информационных систем

доктор инженерных наук, главный научный сотрудник; профессор, кафедра программная инженерия; профессор, Dr.Sc.

Адилхан Сымагулов, Институт информационных и вычислительных технологий МОН РК; Казахский национальный исследовательский технический университет имени К.И. Сатпаева

бакалавр естественных наук, инженер-программист; магистрант

Ян Игоревич Кучин, Институт информационных и вычислительных технологий МОН РК

магистр, научный сотрудник

Сабина Абдуллаева, Институт информационных и вычислительных технологий МОН РК

бакалавр математических методов в экономике, лаборант

Фарида Наурузбаевна Абдолдина, Казахский национальный исследовательский технический университет имени К.И. Сатпаева

кандидат технических наук, заместитель директора, Институт информационных и телекоммуникационных технологий

Литература

[1] Cambria E., White B. Jumping NLP Curves: A Review of Natural Language Processing Research [Review Article]. IEEE Computational Intelligence Magazine. 2014; 9(2):48-57. DOI: 10.1109/MCI.2014.2307227
[2] Sreelekha S., Bhattacharyya P., Jha S.K., Malathi D. A survey report on evolution of machine translation. International Journal of Control Theory and Applications. 2016; 9(33):233-240.
[3] Höffner K., Walter S., Marx E., Usbeck R., Lehmann J., Ngomo A-CN. Survey on Challenges of Question Answering in the Semantic Web. Semantic Web. 2017; 8(6):895-920. DOI: 10.3233/SW-160247
[4] Qi W., Teney D., Wang P., Shen C., Dick A., van den Hengel A. Visual question answering: A survey of methods and datasets. Computer Vision and Image Understanding. 2017; 163:21-40. DOI: 10.1016/j.cviu.2017.05.001
[5] Jurafsky D., Martin J.H. Speech and Language Processing (2nd Edition). Prentice-Hall, Inc., Upper Saddle River, NJ, USA. 2009. 950 p.
[6] Niklaus C., Cetto M., Freitas A., Handschuh S. A Survey on Open Information Extraction. CoRR. 2018. Vol. abs/1806.05599. Available at: http://arxiv.org/abs/1806.05599 (accessed 12.09.2018).
[7] Deo A., Jayesh G., Shweta G. A survey paper on information retrieval system. International Journal of Advanced Research in Computer Science. 2018; 9(1):778-781. DOI: 10.26483/ijarcs.v9i1.5505
[8] Shokin Yu.I., Fedotov A.M., Barakhnin V.B. Problems finding information. Novosibirsk: Nauka, 2010. 195 p. Available at: https://elibrary.ru/item.asp?id=20126897 (accessed 12.09.2018). (In Russian)
[9] Campos R., Dias G., Jorge A.M., Jatowt A. Survey of Temporal Information Retrieval and Related Applications. ACM Computing Surveys (CSUR). 2015; 47(2):15. 41 p. DOI: 10.1145/2619088
[10] Purves R.S., Clough P., Jones C.B., Hall M.H., Murdock V. Geographic Information Retrieval: Progress and Challenges in Spatial Search of Text. Foundations and Trends® in Information Retrieval. 2018; 12(2-3):164-318. DOI: 10.1561/1500000034
[11] Shiliang Sun, Chen Luo, Junyu Chen A review of natural language processing techniques for opinion mining systems. Information Fusion. 2017; 36:10-25. DOI: 10.1016/j.inffus.2016.10.004
[12] Le Cun Y., Bengio Y., Hinton G. Deep learning. Nature. 2015; 521:436-444. DOI: 10.1038/nature14539
[13] Hogenboom F. et al. A survey of event extraction methods from text for decision support systems. Decision Support Systems. 2016; 85:12-22. DOI: 10.1016/j.dss.2016.02.006
[14] Potthast M., Hagen M., Stein B. Author Obfuscation: Attacking the State of the Art in Authorship Verification. CLEF2016. Working Notes of CLEF 2016 – Conference and Labs of the Evaluation forum. Évora, Portugal, 5-8 September, 2016. CEUR Workshop Proceedings. Vol. 1609, pp. 716-749. Available at: http://ceur-ws.org/Vol-1609/16090716.pdf (accessed 12.09.2018).
[15] Hirschberg J., Manning C.D. Advances in natural language processing. Science. 2015; 349(6245):261-266. DOI: 10.1126/science.aaa8685
[16] Manning C.D., Schütze H. Foundations of Statistical Natural Language Processing. The MIT Press, Cambridge, Massachusetts, London, England, 1999. 680 p.
[17] Goldberg Y. A Primer on Neural Network Models for Natural Language Processing. Journal of Artificial Intelligence Research. 2016; 57(1):345-420.
[18] Manning C.D., Surdeanu M., Bauer J., Finkel J., Bethard S.J., McClosky D. The Stanford CoreNLP Natural Language Processing Toolkit. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, System Demonstrations. Association for Computational Linguistics, Stroudsburg, PA, 2014, pp. 55-60. DOI: 10.3115/v1/P14-5010
[19] Dale R. NLP meets the cloud. Natural Language Engineering. 2015; 21(4):653-659. DOI: 10.1017/S1351324915000200
[20] Tablan V., Bontcheva K., Roberts I., Cunningham H., Dimitrov M. AnnoMarket: An Open Cloud Platform for NLP. Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics: System Demonstrations. 2013, pp. 19-24. Available at: http://aclweb.org/anthology/P13-4004 (accessed 12.09.2018).
[21] Dale R. Text Analytics APIs, Part 2: The Smaller Players. Natural Language Engineering. 2018; 24(5):797-803. DOI: 10.1017/S135132491800027X
[22] Rubailo A.V., Kosenko M.Yu. Software to extract information from texts in a natural language. Almanac of modern science and education. 2016; 12(114):87-92. Available at: https://elibrary.ru/item.asp?id=27710461 (accessed 12.09.2018).
[23] Marusova V.A. Comparative analysis of existing systems for determining the tonality of the text. Materials and methods of innovative research and development. Chelyabinsk, 2016; 2:66-68. Available at: https://elibrary.ru/item.asp?id=27402188 (accessed 12.09.2018).
[24] Shavrina T. Differential approach to webcorpus construction. Komp'juternaja lingvistika i intellektual'nye tehnologii. 2018. Available at: https://elibrary.ru/item.asp?id=35716241 (accessed 12.09.2018).
[25] Muhamedyev R. Machine learning methods: An overview. Computer Modelling & New Technologies. 2015; 19(6):14-29. Available at: www.cmnt.lv/upload-files/ns_24rrt02_ReviewPaper.pdf (accessed 12.09.2018).