Оценка временной эффективности форматов хранения больших данных в динамике роста объема данных

Аннотация

При разработке озера данных на таких платформах, как Apache Hadoop, важным вопросом становится выбор формата хранения данных. Этот выбор должен опираться на ряд различных критериев, одним из которых являются временные затраты при запуске различных запросов к этим данным. Однако любая система обработки данных предполагает постоянный рост объема этих данных. В связи с этим возникает необходимость изучения эффективности форматов в динамике роста объема данных, хранящихся в системе. В данной статье предлагается методика оценки эффективности форматов хранения данных в озерах данных, построенных на платформе Apache Hadoop, в динамике роста объема данных. Предложен эксперимент, представляющий из себя ряд запусков запросов различной сложности к данным, хранящихся в форматах JSON, Apache Avro, ORC, Apache Parquet. Для запуска запросов использовался фреймворк Apache Spark.

Сведения об авторах

Vladimir Alexandrovich Belov, МИРЭА – Российский технологический университет

аспирант

Evgeny Vitalyevich Nikulchev, МИРЭА – Российский технологический университет

профессор кафедры интеллектуальных систем информационной безопасности, доктор технических наук, профессор

Опубликована
2021-12-20
Как цитировать
BELOV, Vladimir Alexandrovich; NIKULCHEV, Evgeny Vitalyevich. Оценка временной эффективности форматов хранения больших данных в динамике роста объема данных. Международный научный журнал «Современные информационные технологии и ИТ-образование», [S.l.], v. 17, n. 4, dec. 2021. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/809>. Дата доступа: 25 jan. 2022