Применение вероятносто-энтропийного подхода к отбору тематически схожих документов в информационной системе специального назначения

Аннотация

Задача поиска тематически схожих документов, как одна из задач классификации текста, является одной из наиболее важных областей обработки естественного языка. В результате решения данной задачи, данные автоматически сортируются по заранее определенному набору классов. Поиск тематически схожих документов и классификация текста широко применяется в коммерческих приложениях, таких как фильтрация спама, принятие решений, извлечение информации из необработанных данных и многие другие приложения. В информационных системах специального назначения автоматическая классификация текста применяется для обработки информационных сообщений из открытых источников информации, устраняя необходимость использовать более дорогой и трудоемкий механизм ручной классификации данных.
В настоящее время лучшие результаты в автоматической классификации текстов показывают методы основанные на нейронных сетях. Однако следует учитывать, что такие результаты получены на тестовых наборах содержащих десятки и сотни тысяч размеченных документов и в условиях постоянства набора классов. В работе предложен способ отбора тематически схожих документов, в основе которого лежит эталонный набор из нескольких десятков документов, относящийся к каждому конкретному классу. Эталонный набор документов представляется в виде ранжированного списка ключевых слов и словосочетаний (списка ключевых терминов). Место термина в данном списке (ранг термина) определяется путем расчета нескольких вероятностно - энтропийных показателей и последующего суммирования. Далее определяется близость к каждому классу, исходя из количества ключевых терминов каждого класса и итогового веса в документе, подлежащем классификации.

Сведения об авторах

Vladimir Alexandrovich Popov, Военная академия РВСН имени Петра Великого

адъюнкт кафедры

Dmitry Vladimirovich Krakhmalev, Финансовый университет при Правительстве Российской Федерации

доцент кафедры бизнес-информатики, кандидат технических наук, доцент

Mikhail Sergeevich Chipchagov, Финансовый университет при Правительстве Российской Федерации

доцент Департамента анализа данных и машинного обучения, кандидат технических наук

Опубликована
2022-12-20
Как цитировать
POPOV, Vladimir Alexandrovich; KRAKHMALEV, Dmitry Vladimirovich; CHIPCHAGOV, Mikhail Sergeevich. Применение вероятносто-энтропийного подхода к отбору тематически схожих документов в информационной системе специального назначения. Современные информационные технологии и ИТ-образование, [S.l.], v. 18, n. 4, dec. 2022. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/902>. Дата доступа: 01 feb. 2023