Оценка временной эффективности форматов хранения больших данных в динамике роста объема данных
Аннотация
При разработке озера данных на таких платформах, как Apache Hadoop, важным вопросом становится выбор формата хранения данных. Этот выбор должен опираться на ряд различных критериев, одним из которых являются временные затраты при запуске различных запросов к этим данным. Однако любая система обработки данных предполагает постоянный рост объема этих данных. В связи с этим возникает необходимость изучения эффективности форматов в динамике роста объема данных, хранящихся в системе. В данной статье предлагается методика оценки эффективности форматов хранения данных в озерах данных, построенных на платформе Apache Hadoop, в динамике роста объема данных. Предложен эксперимент, представляющий из себя ряд запусков запросов различной сложности к данным, хранящихся в форматах JSON, Apache Avro, ORC, Apache Parquet. Для запуска запросов использовался фреймворк Apache Spark.

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.