Дистрибутивный интеллектуальный анализатор
Аннотация
Основой настоящей работы является реализация дистрибутивного интеллектуального анализатора, выдающего наиболее семантически близкие рекомендации в ответ на запрос пользователя в медицинской области. Система позволяет получить релевантный и полезный контент, что дает возможность упростить работу с поиском специализированной литературы и сократить время для подбора и поиска того или иного научного материала (поскольку в библиотеках научных публикаций отсутствует возможность проведения семантического поиска). Данная работа базируется на применении двух подходов векторизации: Word2Vec - анализирует слова, Phrase2Vec – анализирует фразы, а исследования сосредоточены на автоматизации процесса выделения качественных фраз. В работе представлена комбинация двух основных методов выделения фраз - основанных на данных (использующих n-граммы) и основанных на грамматике (с использованием POS-разметки), а также система для извлечения качественных фраз из медицинских статей. Выводы статьи подтверждают эффективность и применимость комбинированного подхода к интеллектуальному анализу фраз, а также успешное применение разработанного анализатора в медицинской области. Данная работа оказывает положительное влияние на развитие методов анализа текстовых коллекций и может быть полезной в других научных областях. В ходе разработки программного кода был создан дистрибутивный интеллектуальный анализатор медицинских текстов, корректно работающий как с фразами, так и с отдельно взятыми словами и выдающий для пользователя результаты на основе сходства между словами (мера косинусной близости их векторных представлений). Для написания оптимально работающей системы был применен язык программирования Python, который является одним из основных инструментов для осуществления интеллектуального анализа текстовых данных.
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.