Частичное индексирование в применении к задачам поиска и соединения
Аннотация
Из-за увеличения объема данных и разнообразия требований к их обработке, сейчас все чаще отказываются от обработки данных на лету и в большей степени переносят основную работу по выполнению запроса или его основных аспектов на заранее хранимые и подготовленные результаты. Во многих случаях, СУБД пытаются решить проблемы производительности за счет увеличения расходов памяти, однако стоит задуматься об экономии памяти, сохраняя при этом результаты методов, основанных на подходах, таких как индексирование, хеширование и нейронные алгоритмы. В данной статье рассматривается метод повышения эффективности решения задач поиска в больших таблицах. Предложенный метод основывается на частичном индексировании элементов возле центров сближения и введении понятия метаданных для этих центров. Такая кластеризация с хранимыми метаданными для центров, около которых располагаются очередные промежуточные узлы, позволяет снизить расходы памяти на индексацию, поскольку, во-первых, при таком подходе отсутствует необходимость вложенного индексирования, которое может привести к значительным пространственным затратам. Во-вторых, этот подход может предоставить возможность использовать одно индексирование для разных комбинаций наличия столбцов в поисковом образе, не теряя при этом большей части эффективности поиска при индексировании. Правильное применение данного подхода может позволить эффективно обрабатывать таблицы, имеющие разные поисковые потребности, по разным группам столбцов, для которых хранение индексации для каждого большого типа запроса или группы запросов может приводить к значительным затратам памяти, а также потере производительности при работе с большими блоками памяти, рост которых не является линейным.
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.