TY - JOUR AU - Барахнин, Владимир Борисович AU - Кожемякина, Ольга Юрьевна AU - Рычкова, Елена Владимировна AU - Пастушков, Илья Сергеевич AU - Борзилова, Юлия Сергеевна PY - 2018/12/10 TI - ИЗВЛЕЧЕНИЕ ЛЕКСИЧЕСКИХ И МЕТРОРИТМИЧЕСКИХ ПРИЗНАКОВ, ХАРАКТЕРНЫХ ДЛЯ ЖАНРА И СТИЛЯ И ИХ КОМБИНАЦИЙ В ПРОЦЕССЕ АВТОМАТИЗИРОВАННОЙ ОБРАБОТКИ ТЕКСТОВ НА РУССКОМ ЯЗЫКЕ JF - Современные информационные технологии и ИТ-образование; Том 14 № 4 (2018): Современные информационные технологии и ИТ-образованиеDO - 10.25559/SITITO.14.201804.888-895 KW - N2 - В работе описан алгоритм извлечения характерных признаков для жанра и стиля. Работа выполнялась в рамках разработки программной системы, созданной в Институте вычислительных технологий СО РАН и предназначенной для комплексного анализа метроритмических и жанрово-стилистических характеристик поэтических текстов на русском языке. Система органично сочетает в себе как оригинальные программные модули, созданные непосредственно разработчиками системы и предназначенные для решения узкоспециализированных задач анализа поэтических текстов, так и программные продукты открытого доступа. Обобщённый подход, позволяющий рассматривать поэтические признаки в виде вектора, с одной стороны, позволяет использовать современные алгоритмы классификации и их ансамбли, с другой, такой подход имеет недостатки при малых объёмах корпусов, с которыми приходится работать. Поэтому наличие такого шага как верификация позволяет специалистам корректировать работу системы исходя из экспертных знаний, а также делает процесс классификации прозрачным. В качестве инструмента были применены библиотеки языка Python: scikit-learn, в которой реализованы алгоритмы классификации, а также методы их комбинирования, и ELI5, позволяющая установить соответствие между компонентами вектора признаков с конкретными признаками. Таким образом извлечение лексических и метроритмических признаков, характерных для жанра и стиля и их комбинаций улучшает процесс автоматизированной обработки текстов на русском языке, что продемонстрировано на основе подготовленного корпуса поэтических текстов А.С. Пушкина и К.Н. Батюшкова. Полученные результаты могут быть использованы для облегчения верификации классификатора, а также составления списка характерных для жанра и стиля признаков в творчестве того или иного поэта. UR - http://sitito.cs.msu.ru/index.php/SITITO/article/view/455