Объектно-алгебраическая модель массовой обработки структурированных больших данных
Аннотация
В статье рассматривается алгебраическая модель для массовой обработки высокоактивных структурированных больших данных. Этот тип данных характеризуется тем, что в обработку включается большинство данных, а чаще всего все данные, – высокая активность, организация данных в виде строго определенных агрегатов двух уровней: записей и файлов, имеющих имена и строго определенные структуры, а также большие объемы в гигабайтах и более. Показано, что в основу обработки рассматриваемого типа данных первоначально было положено понятие информационного массива, в настоящее время называемое файлом. Проведен ретроспективный анализ систем совместной обработки файлов, основанных на математической теории файлов, позволяющей формализовать операции над файлами и записями. Предложен объектно-алгебраический метод формализации, основанный на определении абстрактного типа данных как универсальной многоосновной алгебраической системы. Рассмотрены интуитивное и алгебраическое определения абстрактного типа данных, и приведены примеры, которые подтверждают их соответствие. Введено понятие абстрактной алгебраической машины как двухосновной алгебраической системы, одно из основных множеств которой называется структурой, а второе – типом. Сигнатуры операций и предикатов определены на этих основных множествах и их декартовом произведении. Для формализации агрегата данных первого уровня – записей, разработан абстрактный тип данных Кортеж. Определены операции над кортежами и приведены примеры, демонстрирующие аддитивную и мультипликативную операции. На основе этого абстрактного типа данных построен тип данных Запись, для которого определено понятие ключа. Введены понятия множества ключей и экземпляра этого множества. На основе абстрактного типа данных Запись введено понятие множества однотипных записей. Файл определен как фактор-множество множества однотипных записей по порожденному множеством ключей отношению эквивалентности. Введено понятие универсальной неопределенной записи, которое необходимо для формализации операций над файлами. Определены операции над файлами: сортировка, выборка, сжатие, слияние строго упорядоченных файлов и слияние нестрого упорядоченных файлов. Таким образом построена мета-конструкция универсальная алгебраическая файл-машина.

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.
