ОБЛАЧНЫЕ СЕРВИСЫ ДЛЯ ОБРАБОТКИ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ
Аннотация
В работе приведены результаты экспериментов, проведенных с целью сравнительного анализа качества работы существующих облачных сервисов по обработке текстов на русском языке. В статье приводится обзор 10-ти облачных сервисов: TextRazor, RosetteTextAnalytics, EurekaEngine, CloudNaturalLanguage, Texterra, Pullenti, NER-ru, UDPipe, AOT, DeepPavlov. Количественные исследования качества работы выполнены для 6-ти из них. В процессе оценки сервисов анализировалось выполнение таких функций, как частеречная разметка, анализ тональности, распознавание именованных сущностей и категоризация текстов. Для сравнительной оценки качества работы сервисов были использованы материалы соревнований: factRuEval-2016 (выявление именованных сущностей), AlemResearch (тональность) и корпуса текстов, Taiga и OpenCorpora (морфологическая разметка). Качество распознавания именованных сущностей оценивалось путем расчета параметров Accuracy, Precision, Recall и F1.
В результате проведенного исследования показано, что при решении задач обработки текста на русском языке для распознавания именованных сущностей и определения тональности текста наилучший результат показывает сервис EurekaEngine, а для частеречной разметки текста – сервис RosetteTextAnalytics, для категоризации текста – сервис TextRazor.
Литература
[2] Sreelekha S., Bhattacharyya P., Jha S.K., Malathi D. A survey report on evolution of machine translation. International Journal of Control Theory and Applications. 2016; 9(33):233-240.
[3] Höffner K., Walter S., Marx E., Usbeck R., Lehmann J., Ngomo A-CN. Survey on Challenges of Question Answering in the Semantic Web. Semantic Web. 2017; 8(6):895-920. DOI: 10.3233/SW-160247
[4] Qi W., Teney D., Wang P., Shen C., Dick A., van den Hengel A. Visual question answering: A survey of methods and datasets. Computer Vision and Image Understanding. 2017; 163:21-40. DOI: 10.1016/j.cviu.2017.05.001
[5] Jurafsky D., Martin J.H. Speech and Language Processing (2nd Edition). Prentice-Hall, Inc., Upper Saddle River, NJ, USA. 2009. 950 p.
[6] Niklaus C., Cetto M., Freitas A., Handschuh S. A Survey on Open Information Extraction. CoRR. 2018. Vol. abs/1806.05599. Available at: http://arxiv.org/abs/1806.05599 (accessed 12.09.2018).
[7] Deo A., Jayesh G., Shweta G. A survey paper on information retrieval system. International Journal of Advanced Research in Computer Science. 2018; 9(1):778-781. DOI: 10.26483/ijarcs.v9i1.5505
[8] Shokin Yu.I., Fedotov A.M., Barakhnin V.B. Problems finding information. Novosibirsk: Nauka, 2010. 195 p. Available at: https://elibrary.ru/item.asp?id=20126897 (accessed 12.09.2018). (In Russian)
[9] Campos R., Dias G., Jorge A.M., Jatowt A. Survey of Temporal Information Retrieval and Related Applications. ACM Computing Surveys (CSUR). 2015; 47(2):15. 41 p. DOI: 10.1145/2619088
[10] Purves R.S., Clough P., Jones C.B., Hall M.H., Murdock V. Geographic Information Retrieval: Progress and Challenges in Spatial Search of Text. Foundations and Trends® in Information Retrieval. 2018; 12(2-3):164-318. DOI: 10.1561/1500000034
[11] Shiliang Sun, Chen Luo, Junyu Chen A review of natural language processing techniques for opinion mining systems. Information Fusion. 2017; 36:10-25. DOI: 10.1016/j.inffus.2016.10.004
[12] Le Cun Y., Bengio Y., Hinton G. Deep learning. Nature. 2015; 521:436-444. DOI: 10.1038/nature14539
[13] Hogenboom F. et al. A survey of event extraction methods from text for decision support systems. Decision Support Systems. 2016; 85:12-22. DOI: 10.1016/j.dss.2016.02.006
[14] Potthast M., Hagen M., Stein B. Author Obfuscation: Attacking the State of the Art in Authorship Verification. CLEF2016. Working Notes of CLEF 2016 – Conference and Labs of the Evaluation forum. Évora, Portugal, 5-8 September, 2016. CEUR Workshop Proceedings. Vol. 1609, pp. 716-749. Available at: http://ceur-ws.org/Vol-1609/16090716.pdf (accessed 12.09.2018).
[15] Hirschberg J., Manning C.D. Advances in natural language processing. Science. 2015; 349(6245):261-266. DOI: 10.1126/science.aaa8685
[16] Manning C.D., Schütze H. Foundations of Statistical Natural Language Processing. The MIT Press, Cambridge, Massachusetts, London, England, 1999. 680 p.
[17] Goldberg Y. A Primer on Neural Network Models for Natural Language Processing. Journal of Artificial Intelligence Research. 2016; 57(1):345-420.
[18] Manning C.D., Surdeanu M., Bauer J., Finkel J., Bethard S.J., McClosky D. The Stanford CoreNLP Natural Language Processing Toolkit. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, System Demonstrations. Association for Computational Linguistics, Stroudsburg, PA, 2014, pp. 55-60. DOI: 10.3115/v1/P14-5010
[19] Dale R. NLP meets the cloud. Natural Language Engineering. 2015; 21(4):653-659. DOI: 10.1017/S1351324915000200
[20] Tablan V., Bontcheva K., Roberts I., Cunningham H., Dimitrov M. AnnoMarket: An Open Cloud Platform for NLP. Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics: System Demonstrations. 2013, pp. 19-24. Available at: http://aclweb.org/anthology/P13-4004 (accessed 12.09.2018).
[21] Dale R. Text Analytics APIs, Part 2: The Smaller Players. Natural Language Engineering. 2018; 24(5):797-803. DOI: 10.1017/S135132491800027X
[22] Rubailo A.V., Kosenko M.Yu. Software to extract information from texts in a natural language. Almanac of modern science and education. 2016; 12(114):87-92. Available at: https://elibrary.ru/item.asp?id=27710461 (accessed 12.09.2018).
[23] Marusova V.A. Comparative analysis of existing systems for determining the tonality of the text. Materials and methods of innovative research and development. Chelyabinsk, 2016; 2:66-68. Available at: https://elibrary.ru/item.asp?id=27402188 (accessed 12.09.2018).
[24] Shavrina T. Differential approach to webcorpus construction. Komp'juternaja lingvistika i intellektual'nye tehnologii. 2018. Available at: https://elibrary.ru/item.asp?id=35716241 (accessed 12.09.2018).
[25] Muhamedyev R. Machine learning methods: An overview. Computer Modelling & New Technologies. 2015; 19(6):14-29. Available at: www.cmnt.lv/upload-files/ns_24rrt02_ReviewPaper.pdf (accessed 12.09.2018).
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.