Применение вероятносто-энтропийного подхода к отбору тематически схожих документов в информационной системе специального назначения
Аннотация
Задача поиска тематически схожих документов, как одна из задач классификации текста, является одной из наиболее важных областей обработки естественного языка. В результате решения данной задачи, данные автоматически сортируются по заранее определенному набору классов. Поиск тематически схожих документов и классификация текста широко применяется в коммерческих приложениях, таких как фильтрация спама, принятие решений, извлечение информации из необработанных данных и многие другие приложения. В информационных системах специального назначения автоматическая классификация текста применяется для обработки информационных сообщений из открытых источников информации, устраняя необходимость использовать более дорогой и трудоемкий механизм ручной классификации данных.
В настоящее время лучшие результаты в автоматической классификации текстов показывают методы основанные на нейронных сетях. Однако следует учитывать, что такие результаты получены на тестовых наборах содержащих десятки и сотни тысяч размеченных документов и в условиях постоянства набора классов. В работе предложен способ отбора тематически схожих документов, в основе которого лежит эталонный набор из нескольких десятков документов, относящийся к каждому конкретному классу. Эталонный набор документов представляется в виде ранжированного списка ключевых слов и словосочетаний (списка ключевых терминов). Место термина в данном списке (ранг термина) определяется путем расчета нескольких вероятностно - энтропийных показателей и последующего суммирования. Далее определяется близость к каждому классу, исходя из количества ключевых терминов каждого класса и итогового веса в документе, подлежащем классификации.

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.