Ограниченные алгоритмы приближенного поиска при обнаружении знаний


Обнаружение знаний в области больших данных является одним из наиболее важных приложений вычислительной техники сегодня. Поиск является неотъемлемой частью всех таких процедур. Алгоритмы поиска должны быть чрезвычайно эффективными, но в то же время процедуры обнаружения знаний не должны давать слишком много ложных срабатываний или ложных отрицаний. Ложные срабатывания требуют последующей обработки, что снижает общую эффективность процедур обнаружения знаний, в то время как ложные отрицания снижают чувствительность таких процедур. Чтобы уменьшить количество ложноположительных и ложноотрицательных результатов, в этой статье предлагается применять ограниченные приближенные алгоритмы поиска. Краткий обзор теории поиска, точной и приблизительной, дается вначале, раскрывая основы алгоритмов приближенного поиска на основе динамического программирования и на основе бит-параллелизма без ограничений. Затем объясняется введение ограничений, специфичных для различных процедур обнаружения знаний, а также тонкостей различных приложений, таких как фильтрация спама, цифровая и сетевая экспертиза (разделение файлов, обнаружение вторжений в хосты и сети). Также обсуждаются преимущества и недостатки применения таких ограниченных алгоритмов поиска в процедурах обнаружения знаний. Намечено потенциальное применение в биоинформатике.

Сведения об авторах

Slobodan Petrović, Норвежский университет естественных и технических наук

профессор кафедры информационной безопасности и коммуникационных технологий, факультет информационных технологий и электротехники, кандидат технических наук

Julia Sidorova, Технологический институт Блекинге

доцент кафедры информатики, кандидат технических наук


Как цитировать
Теоретические вопросы информатики, прикладной математики, компьютерных наук