ИЗВЛЕЧЕНИЕ ЛЕКСИЧЕСКИХ И МЕТРОРИТМИЧЕСКИХ ПРИЗНАКОВ, ХАРАКТЕРНЫХ ДЛЯ ЖАНРА И СТИЛЯ И ИХ КОМБИНАЦИЙ В ПРОЦЕССЕ АВТОМАТИЗИРОВАННОЙ ОБРАБОТКИ ТЕКСТОВ НА РУССКОМ ЯЗЫКЕ
Аннотация
В работе описан алгоритм извлечения характерных признаков для жанра и стиля. Работа выполнялась в рамках разработки программной системы, созданной в Институте вычислительных технологий СО РАН и предназначенной для комплексного анализа метроритмических и жанрово-стилистических характеристик поэтических текстов на русском языке. Система органично сочетает в себе как оригинальные программные модули, созданные непосредственно разработчиками системы и предназначенные для решения узкоспециализированных задач анализа поэтических текстов, так и программные продукты открытого доступа. Обобщённый подход, позволяющий рассматривать поэтические признаки в виде вектора, с одной стороны, позволяет использовать современные алгоритмы классификации и их ансамбли, с другой, такой подход имеет недостатки при малых объёмах корпусов, с которыми приходится работать. Поэтому наличие такого шага как верификация позволяет специалистам корректировать работу системы исходя из экспертных знаний, а также делает процесс классификации прозрачным. В качестве инструмента были применены библиотеки языка Python: scikit-learn, в которой реализованы алгоритмы классификации, а также методы их комбинирования, и ELI5, позволяющая установить соответствие между компонентами вектора признаков с конкретными признаками. Таким образом извлечение лексических и метроритмических признаков, характерных для жанра и стиля и их комбинаций улучшает процесс автоматизированной обработки текстов на русском языке, что продемонстрировано на основе подготовленного корпуса поэтических текстов А.С. Пушкина и К.Н. Батюшкова. Полученные результаты могут быть использованы для облегчения верификации классификатора, а также составления списка характерных для жанра и стиля признаков в творчестве того или иного поэта.
Литература
[2] Analysis of the poetic texts online. Available at: http://poem.ict.nsc.ru/ (accessed 25.09.2018). (In Russian)
[3] Barakhnin V., Kozhemyakina O. About the automation of the complex analysis of Russian poetic text. CEUR Workshop Proceedings. 2012; 934:167-171. Available at: http://ceur-ws.org/Vol-934/paper27.pdf (accessed 25.09.2018).
[4] Melchuk I.A. Language: from meaning to text. M.: Yazyki slavyanskikh kultur, 2012. 190 p. Available at: http://biblioclub.ru/index.php?page=book&id=219899 (accessed 25.09.2018). (In Russian)
[5] Friedman J.H. Stochastic Gradient Boosting. Computational Statistics and Data Analysis. 2002; 38(4):367-378. DOI: 10.1016/S0167-9473(01)00065-2
[6] Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages. Communications in Computer and Information Science. 2015; 542:320-332. Available at: https://elibrary.ru/item.asp?id=26927893 (accessed 25.09.2018).
[7] Barakhnin V.B., Kozhemyakina O.Yu., Pastushkov I.S. Comparative analysis of methods of automated classification of poetic texts based on lexical signs. CEUR Workshop Proceedings. 2017; 2022:252-257. Available at: http://ceur-ws.org/Vol-2022/paper41.pdf (accessed 25.09.2018).
[8] Barakhnin V.B., Kozhemyakina O.Yu., Pastushkov I.S. Automated Determination of the Type of Genre and Stylistic Coloring of Russian Texts. ITM Web of Conferences. 2017; 10:02001. DOI: https://doi.org/10.1051/itmconf/20171002001
[9] Barakhnin V.B., Fedotov A.M., Bakiyeva A.V., Bakiyev M.N., Tazhibayeva S.Zh., Batura T.V., Kozhemyakina O.Yu., Tussupov D.A., Sambetbaiyeva M.A., Lukpanova L.Kh. The Software System for the Study the Morphology of the Kazakh Language. The European Proceedings of Social & Behavioural Sciences. 2017; XXXIII:18-27. Available at: http://www.futureacademy.org.uk/files/images/upload/ICPE2017F3.pdf (accessed 25.09.2018).
[10] Barakhnin V.B., Kozhemyakina O.Yu., Zabaykin A.V. Usage of modern computer technologies in the learning process of the philologists of complex analysis of Russian poetic texts. SHS Web of Conferences. 2016; 29:UNSP02002. DOI: http://dx.doi.org/10.1051/shsconf/20162902002
[11] Barakhnin V.B., Kozhemyakina O.Y., Zabaykin A.V. The Algorithms of Complex Analysis of Russian Poetic Texts for the Purpose of Automation of the Process of Creation of Metric Reference Books and Concordances. CEUR Workshop Proceedings. 2015; 1536:138-143. Available at: http://ceur-ws.org/Vol-1536/paper21.pdf (accessed 25.09.2018). (In Russian)
[12] Mansurova M.E., Barakhnin V.B., Aubakirov S.S., Khibatkhanuly Ye., Mussina A.B. Parallel text document clustering based on genetic algorithm. CEUR Workshop Proceedings. 2017; 1839:218-232. Available at: http://ceur-ws.org/Vol-1839/MIT2016-p20.pdf (accessed 25.09.2018).
[13] Mansurova M.E., Barakhnin V.B., Aubakirov S.S., Khibatkhanuly Ye., Mussina A.B. Development of parallel FRiS-Tax text document clustering algorithm based on MPI technology. CEUR Workshop Proceedings. 2016; 1576:244-256. Available at: http://ceur-ws.org/Vol-1576/128.pdf (accessed 25.09.2018). (In Russian)
[14] Chawla N.V. Data Mining for Imbalanced Datasets: An Overview. Data Mining and Knowledge Discovery Handbook. Springer-Verlag, 2010, pp. 875-886. DOI: 10.1007/978-0-387-09823-4_45
[15] Mikolov T., Kai Chen, Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space. Computation and Language. 2013. Available at: https://arxiv.org/pdf/1301.3781.pdf (accessed 25.09.2018).
[16] Moskvina A.D., Mitrofanova O.A., Erofeeva A.R., Charabet Ja.K. Automatic extraction of key words and phrases from Russian text corpora by means of RAKE algorithm. Proceedings of the International conference “Corpora linguistics-2017”. 2017, pp. 268-274. Available at: https://elibrary.ru/item.asp?id=32425675 (accessed 25.09.2018). (In Russian)
[17] Sokolova E., Mitrofanova O. Automatic Keyphrase Extraction by applying KEA to Russian texts. Proceedings of the XX International joint conference “Internet and Modern Society” (IMS-2017). 2017, pp. 157-165. Available at: http://openbooks.ifmo.ru/ru/file/6522/6522.pdf (accessed 25.09.2018). (In Russian)
[18] Moskvina A., Orlova D., Panicheva P., Mitrofanova O. Development of the Core for Syntactic Parser for Russian based on NLTK libraries. Proceedings of the XIX International joint conference “Internet and Modern Society” (IMS-2016). 2016, pp. 44-45. Available at: http://openbooks.ifmo.ru/ru/file/4103/4103.pdf (accessed 25.09.2018). (In Russian)
[19] Vetulani Z., Obrębski T., Vetulani G. Towards a Lexicon-Grammar of Polish: Extraction of Verbo-Nominal Collocations from Corpora. Proceedings of the Twentieth International Florida Artificial Intelligence Research Society Conference. 2007, pp. 267-268. Available at: http://www.aaai.org/Papers/FLAIRS/2007/Flairs07-055.pdf (accessed 25.09.2018).
[20] Koshcheeva S. Comparing Methods of Automatic Verb-Noun Collocation Extraction. Proceedings of the XVII all-Russian joint conference “Internet and Modern Society” (IMS-2014). 2014, pp. 298-303. Available at: http://ojs.ifmo.ru/index.php/IMS/article/view/270/266 (accessed 25.09.2018). (In Russian)
[21] Vanyushkin A.S., Grashchenko L.A. Methods and algorithms of the extraction of the keywords. New information technologies in automated systems. 2016; 19:85-93. Available at: https://elibrary.ru/item.asp?id=25864034 (accessed 25.09.2018). (In Russian)
[22] Orlov Yu.N., Osminin K.P. Determination of the genre and author of the literary work by statistical methods. Journal of Applied Informatics. 2010; 2(26):95-108. Available at: https://elibrary.ru/item.asp?id=13569170 (accessed 25.09.2018). (In Russian)
[23] Orlov Yu.N., Osminin K.P. Methods of statistical analysis of literary texts. M.: URSS, 2012. 312 p. (In Russian)
[24] Scikit-learn: Machine Learning in Python. Available at: http://scikit-learn.org/ (accessed 25.09.2018).
[25] ELI5’s documentation. Available at: http://eli5.readthedocs.io/ (accessed 25.09.2018).
[26] Haykin S. Neural Networks: A Comprehensive Foundation. 2nd ed. Prentice Hall PTR Upper Saddle River, NJ, USA, 1998. 842 p.
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.