ИЗВЛЕЧЕНИЕ ЛЕКСИЧЕСКИХ И МЕТРОРИТМИЧЕСКИХ ПРИЗНАКОВ, ХАРАКТЕРНЫХ ДЛЯ ЖАНРА И СТИЛЯ И ИХ КОМБИНАЦИЙ В ПРОЦЕССЕ АВТОМАТИЗИРОВАННОЙ ОБРАБОТКИ ТЕКСТОВ НА РУССКОМ ЯЗЫКЕ

  • Владимир Борисович Барахнин Институт вычислительных технологий Сибирского отделения Российской академии наук; Новосибирский национальный исследовательский государственный университет http://orcid.org/0000-0003-3299-0507
  • Ольга Юрьевна Кожемякина Институт вычислительных технологий Сибирского отделения Российской академии наук http://orcid.org/0000-0003-3619-1120
  • Елена Владимировна Рычкова Институт вычислительных технологий Сибирского отделения Российской академии наук; Новосибирский национальный исследовательский государственный университет http://orcid.org/0000-0001-9692-8441
  • Илья Сергеевич Пастушков Институт вычислительных технологий Сибирского отделения Российской академии наук http://orcid.org/0000-0002-0341-7931
  • Юлия Сергеевна Борзилова Институт вычислительных технологий Сибирского отделения Российской академии наук http://orcid.org/0000-0002-8265-9356

Аннотация

В работе описан алгоритм извлечения характерных признаков для жанра и стиля. Работа выполнялась в рамках разработки программной системы, созданной в Институте вычислительных технологий СО РАН и предназначенной для комплексного анализа метроритмических и жанрово-стилистических характеристик поэтических текстов на русском языке. Система органично сочетает в себе как оригинальные программные модули, созданные непосредственно разработчиками системы и предназначенные для решения узкоспециализированных задач анализа поэтических текстов, так и программные продукты открытого доступа. Обобщённый подход, позволяющий рассматривать поэтические признаки в виде вектора, с одной стороны, позволяет использовать современные алгоритмы классификации и их ансамбли, с другой, такой подход имеет недостатки при малых объёмах корпусов, с которыми приходится работать. Поэтому наличие такого шага как верификация позволяет специалистам корректировать работу системы исходя из экспертных знаний, а также делает процесс классификации прозрачным. В качестве инструмента были применены библиотеки языка Python: scikit-learn, в которой реализованы алгоритмы классификации, а также методы их комбинирования, и ELI5, позволяющая установить соответствие между компонентами вектора признаков с конкретными признаками. Таким образом извлечение лексических и метроритмических признаков, характерных для жанра и стиля и их комбинаций улучшает процесс автоматизированной обработки текстов на русском языке, что продемонстрировано на основе подготовленного корпуса поэтических текстов А.С. Пушкина и К.Н. Батюшкова. Полученные результаты могут быть использованы для облегчения верификации классификатора, а также составления списка характерных для жанра и стиля признаков в творчестве того или иного поэта.

Сведения об авторах

Владимир Борисович Барахнин, Институт вычислительных технологий Сибирского отделения Российской академии наук; Новосибирский национальный исследовательский государственный университет

доктор технических наук, доцент, ведущий научный сотрудник; профессор, кафедра общей информатики, факультет информационных технологий

Ольга Юрьевна Кожемякина, Институт вычислительных технологий Сибирского отделения Российской академии наук

кандидат филологических наук, старший научный сотрудник

Елена Владимировна Рычкова, Институт вычислительных технологий Сибирского отделения Российской академии наук; Новосибирский национальный исследовательский государственный университет

кандидат физико-математических наук, доцент, научный сотрудник; доцент, кафедра массовых коммуникаций, Гуманитарный институт 

Илья Сергеевич Пастушков, Институт вычислительных технологий Сибирского отделения Российской академии наук

аспирант

Юлия Сергеевна Борзилова, Институт вычислительных технологий Сибирского отделения Российской академии наук

аспирант

Литература

[1] Shengeli G.A. The technique of a verse. Moscow: GIHL, 1960. 312 p. Available at: http://imwerden.de/pdf/shengeli_tekhnika_stikha_1960_text.pdf (accessed 25.09.2018). (In Russian)
[2] Analysis of the poetic texts online. Available at: http://poem.ict.nsc.ru/ (accessed 25.09.2018). (In Russian)
[3] Barakhnin V., Kozhemyakina O. About the automation of the complex analysis of Russian poetic text. CEUR Workshop Proceedings. 2012; 934:167-171. Available at: http://ceur-ws.org/Vol-934/paper27.pdf (accessed 25.09.2018).
[4] Melchuk I.A. Language: from meaning to text. M.: Yazyki slavyanskikh kultur, 2012. 190 p. Available at: http://biblioclub.ru/index.php?page=book&id=219899 (accessed 25.09.2018). (In Russian)
[5] Friedman J.H. Stochastic Gradient Boosting. Computational Statistics and Data Analysis. 2002; 38(4):367-378. DOI: 10.1016/S0167-9473(01)00065-2
[6] Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages. Communications in Computer and Information Science. 2015; 542:320-332. Available at: https://elibrary.ru/item.asp?id=26927893 (accessed 25.09.2018).
[7] Barakhnin V.B., Kozhemyakina O.Yu., Pastushkov I.S. Comparative analysis of methods of automated classification of poetic texts based on lexical signs. CEUR Workshop Proceedings. 2017; 2022:252-257. Available at: http://ceur-ws.org/Vol-2022/paper41.pdf (accessed 25.09.2018).
[8] Barakhnin V.B., Kozhemyakina O.Yu., Pastushkov I.S. Automated Determination of the Type of Genre and Stylistic Coloring of Russian Texts. ITM Web of Conferences. 2017; 10:02001. DOI: https://doi.org/10.1051/itmconf/20171002001
[9] Barakhnin V.B., Fedotov A.M., Bakiyeva A.V., Bakiyev M.N., Tazhibayeva S.Zh., Batura T.V., Kozhemyakina O.Yu., Tussupov D.A., Sambetbaiyeva M.A., Lukpanova L.Kh. The Software System for the Study the Morphology of the Kazakh Language. The European Proceedings of Social & Behavioural Sciences. 2017; XXXIII:18-27. Available at: http://www.futureacademy.org.uk/files/images/upload/ICPE2017F3.pdf (accessed 25.09.2018).
[10] Barakhnin V.B., Kozhemyakina O.Yu., Zabaykin A.V. Usage of modern computer technologies in the learning process of the philologists of complex analysis of Russian poetic texts. SHS Web of Conferences. 2016; 29:UNSP02002. DOI: http://dx.doi.org/10.1051/shsconf/20162902002
[11] Barakhnin V.B., Kozhemyakina O.Y., Zabaykin A.V. The Algorithms of Complex Analysis of Russian Poetic Texts for the Purpose of Automation of the Process of Creation of Metric Reference Books and Concordances. CEUR Workshop Proceedings. 2015; 1536:138-143. Available at: http://ceur-ws.org/Vol-1536/paper21.pdf (accessed 25.09.2018). (In Russian)
[12] Mansurova M.E., Barakhnin V.B., Aubakirov S.S., Khibatkhanuly Ye., Mussina A.B. Parallel text document clustering based on genetic algorithm. CEUR Workshop Proceedings. 2017; 1839:218-232. Available at: http://ceur-ws.org/Vol-1839/MIT2016-p20.pdf (accessed 25.09.2018).
[13] Mansurova M.E., Barakhnin V.B., Aubakirov S.S., Khibatkhanuly Ye., Mussina A.B. Development of parallel FRiS-Tax text document clustering algorithm based on MPI technology. CEUR Workshop Proceedings. 2016; 1576:244-256. Available at: http://ceur-ws.org/Vol-1576/128.pdf (accessed 25.09.2018). (In Russian)
[14] Chawla N.V. Data Mining for Imbalanced Datasets: An Overview. Data Mining and Knowledge Discovery Handbook. Springer-Verlag, 2010, pp. 875-886. DOI: 10.1007/978-0-387-09823-4_45
[15] Mikolov T., Kai Chen, Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space. Computation and Language. 2013. Available at: https://arxiv.org/pdf/1301.3781.pdf (accessed 25.09.2018).
[16] Moskvina A.D., Mitrofanova O.A.,  Erofeeva A.R., Charabet Ja.K. Automatic extraction of key words and phrases from Russian text corpora by means of RAKE algorithm. Proceedings of the International conference “Corpora linguistics-2017”. 2017, pp. 268-274. Available at: https://elibrary.ru/item.asp?id=32425675 (accessed 25.09.2018). (In Russian)
[17] Sokolova E., Mitrofanova O. Automatic Keyphrase Extraction by applying KEA to Russian texts. Proceedings of the XX International joint conference “Internet and Modern Society” (IMS-2017). 2017, pp. 157-165. Available at: http://openbooks.ifmo.ru/ru/file/6522/6522.pdf (accessed 25.09.2018). (In Russian)
[18] Moskvina A., Orlova D., Panicheva P., Mitrofanova O. Development of the Core for Syntactic Parser for Russian based on NLTK libraries. Proceedings of the XIX International joint conference “Internet and Modern Society” (IMS-2016). 2016, pp. 44-45. Available at: http://openbooks.ifmo.ru/ru/file/4103/4103.pdf (accessed 25.09.2018). (In Russian)
[19] Vetulani Z., Obrębski T., Vetulani G. Towards a Lexicon-Grammar of Polish: Extraction of Verbo-Nominal Collocations from Corpora. Proceedings of the Twentieth International Florida Artificial Intelligence Research Society Conference. 2007, pp. 267-268. Available at: http://www.aaai.org/Papers/FLAIRS/2007/Flairs07-055.pdf (accessed 25.09.2018).
[20] Koshcheeva S. Comparing Methods of Automatic Verb-Noun Collocation Extraction. Proceedings of the XVII all-Russian joint conference “Internet and Modern Society” (IMS-2014). 2014, pp. 298-303. Available at: http://ojs.ifmo.ru/index.php/IMS/article/view/270/266 (accessed 25.09.2018). (In Russian)
[21] Vanyushkin A.S., Grashchenko L.A. Methods and algorithms of the extraction of the keywords. New information technologies in automated systems. 2016; 19:85-93. Available at: https://elibrary.ru/item.asp?id=25864034 (accessed 25.09.2018). (In Russian)
[22] Orlov Yu.N., Osminin K.P. Determination of the genre and author of the literary work by statistical methods. Journal of Applied Informatics. 2010; 2(26):95-108. Available at: https://elibrary.ru/item.asp?id=13569170 (accessed 25.09.2018). (In Russian)
[23] Orlov Yu.N., Osminin K.P. Methods of statistical analysis of literary texts. M.: URSS, 2012. 312 p. (In Russian)
[24] Scikit-learn: Machine Learning in Python. Available at: http://scikit-learn.org/ (accessed 25.09.2018).
[25] ELI5’s documentation. Available at: http://eli5.readthedocs.io/ (accessed 25.09.2018).
[26] Haykin S. Neural Networks: A Comprehensive Foundation. 2nd ed. Prentice Hall PTR Upper Saddle River, NJ, USA, 1998. 842 p.
Опубликована
2018-12-10
Как цитировать
БАРАХНИН, Владимир Борисович et al. ИЗВЛЕЧЕНИЕ ЛЕКСИЧЕСКИХ И МЕТРОРИТМИЧЕСКИХ ПРИЗНАКОВ, ХАРАКТЕРНЫХ ДЛЯ ЖАНРА И СТИЛЯ И ИХ КОМБИНАЦИЙ В ПРОЦЕССЕ АВТОМАТИЗИРОВАННОЙ ОБРАБОТКИ ТЕКСТОВ НА РУССКОМ ЯЗЫКЕ. Международный научный журнал «Современные информационные технологии и ИТ-образование», [S.l.], v. 14, n. 4, p. 888-895, dec. 2018. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/455>. Дата доступа: 18 aug. 2019 doi: https://doi.org/10.25559/SITITO.14.201804.888-895.
Раздел
Исследования и разработки в области новых ИТ и их приложений