Горизонтально масштабируемый индекс на основе LSM-дерева для логических запросов полнотекстового поиска

  • Aleksei Mikhailovich Neganov Московский физико-технический институт (национальный исследовательский университет) http://orcid.org/0000-0003-4451-5332


Пусть существует набор объектов, где каждый объект характеризуется логическими признаками. Пусть логический запрос или Булевский запрос обозначает запрос на поиск объектов, характеризуемых логической функцией, по признакам, например, "документы со всеми словами...и любыми словами ...и без слов... ". Термины "объект" и "документ" в дальнейшем используются как взаимозаменяемые. Компоненты могут иметь различную семантику, т.е. е. некоторые компоненты могут соответствовать словам документа, некоторые ‒ меткам или категориям, а некоторые ‒ побитовым квантам времени даты документа.
Хотя индексы, использующие логические запросы, хорошо изучены в литературе, общий метод ведения списков рассылки не всегда приемлем. Если объем данных может достигать порядка петабайт, компактная структура индекса становится жизненно важной.
Цель исследования ‒ предложить метод построения эффективного растрового индекса во вторичной памяти, позволяющий обновлять или дополнять индексируемые данные с высокой скоростью записи. Мы предлагаем эффективный индекс на основе LSM для растровых изображений и дизайн элементов для практических приложений. Мы также обсуждаем аспекты построения объединенных индексов для достижения хорошей масштабируемости. В статье описываются архитектура и алгоритмы предлагаемого индекса, а также результаты наших экспериментов, которые показывают устойчивую производительность нашего решения.

Исследования и разработки в области новых ИТ и их приложений