Использование колоночных СУБД для формирования многомерных структур данных

Аннотация

Работа посвящена анализу формирования многомерных информационно-аналитических систем с использованием данных, накопленных в колоночных СУБД. В последнее время такие СУБД получают распространение в системах, нацеленных на хранение и анализ больших объемов информации, генерируемой в результате функционирования интенсивных бизнес-процессов. В процессе анализа многомерных данных требуется производить выборку данных фактов, ассоциированных с сочетаниями значений нескольких измерений. В случае использования колоночных СУБД запросы с участием данных нескольких колонок могут быть организованы таким образом, что каждая колонка в значительной степени может рассматриваться как обособленный источник данных. Это обстоятельство позволяет облегчить переход к параллельной обработке информации. Учитывая, в дополнение к указанным свойствам, высокую эффективность чтения в колоночных СУБД, при выборе указанного подхода можно рассчитывать на эффективное решение задачи формирования многомерных структур данных и упрощение работы по обслуживанию существующих кубов данных в случае необходимости их модификации. Использование колоночных СУБД в многомерном анализе данных может оказаться эффективным в следующих случаях. Когда хранилище данных состоит из широких, многоаспектных таблиц данных с большим количеством колонок, над которыми выполняются сложные операции (агрегации, фильтрация, сортировки). В ситуации, когда бизнес-процесс генерирует большой поток входящих в информационную систему данных (миллиарды событий день, генерируемые в реальном времени).

Сведения об авторах

Dmitry Sergeevich Kunitsky, Российский университет дружбы народов имени Патриса Лумумбы

аспирант кафедры математического моделирования и искусственного интеллекта факультета физико-математических и естественных наук

Maxim Borisovich Fomin, Российский университет дружбы народов имени Патриса Лумумбы

доцент факультета физико-математических и естественных наук, кандидат физико-математических наук

Литература

1. Bellatreche L., Cuzzocrea A., Song I.-Y. Advances in data warehousing and OLAP in the big Data Era. Information Systems. 2015;53:39-40. https://doi.org/10.1016/j.is.2015.06.001
2. Francia M., Gallinucci E., Golfarelli M. COOL: A framework for conversational OLAP. Information Systems. 2022;104:01752. https://doi.org/10.1016/j.is.2021.101752
3. Honcharenko T., Terentyev O., Gorbatyuk E. Mathematical Modeling of Information System Designing Master Plan of the Building Territory Based on OLAP Technology. International scientific-practical conference. 2022:3-15. https://doi.org/10.1007/978-3-030-89902-8_1
4. Cuzzocrea A. Privacy-Preserving OLAP via Modeling and Analysis of Query Workloads: Innovative Theories and Theorems. In: SSDBM 23: Proceedings of the 35th International Conference on Scientific and Statistical Database Management. New York, USA: Association for Computing Machinery; 2023. p. 1-12. https://doi.org/10.1145/3603719.3603735
5. Fonseca R., deCarvalho Victorino M., Holanda M. ROLAP DW transformation proposal for OLAP architecture in NoSQL database. In: EATIS 20: Proceedings of the 10th Euro-American Conference on Telematics and Information Systems. New York, USA: Association for Computing Machinery; 2020. p. 1-7. https://doi.org/10.1145/3401895.3401899
6. Dehne F., Kong Q., Rau-Chaplin A., Zaboli H., Zhou R. Scalable real-time OLAP on cloud architectures. Journal of Parallel and Distributed Computing. 2015;79-80:31-41. https://doi.org/10.1016/j.jpdc.2014.08.006
7. Akhrem A.A., Nosov A.P., Rakhmankulov V.Z., Yuzhanin K.V.1Computational Performance of Hypercube Reduction Methods for Multidimensional Data of Analytical OLAP System. Artificial Intelligence and Decision Making. 2019;(4):23-28. (In Russ., abstract in Eng.) https://doi.org/10.14357/20718594190403
8. Doka K., Tsoumakos D., Koziris N. Online querying of d-dimensional hierarchies. Journal of Parallel and Distributed Computing. 2011;71(3):424-437. https://doi.org/10.1016/j.jpdc.2010.10.005
9. Bimonte S., Coulibaly F.A., Rizzi S. An approach to on-demand extension of multidimensional cubes in multi-model settings: Application to IoT-based agro-ecology. Data & Knowledge Engineering. 2024;150:102267. https://doi.org/10.1016/j.datak.2023.102267
10. Basil John S., Lindner P., Jiang Z., Koch C. Aggregation and Exploration of High-Dimensional Data Using the Sudokube Data Cube Engine. In: SIGMOD 23: Companion of the 2023 International Conference on Management of Data. New York, USA: Association for Computing Machinery; 2023. p. 175-178. https://doi.org/10.1145/3555041.3589729
11. Dehdouh K., Bentayeb F., Boussaid O., Kabachi N. Columnar NoSQL CUBE: Agregation operator for columnar NoSQL data warehouse. In: 2014 IEEE International Conference on Systems, Man, and Cybernetics (SMC). San Diego, CA, USA: IEEE Computer Society; 2014. p. 3828-3833. https://doi.org/10.1109/SMC.2014.6974527
12. Ravat F., Song J., Teste O., Trojahn C. Efficient querying of multidimensional RDF data with aggregates: Comparing NoSQL, RDF and relational data stores. International Journal of Information Management. 2020;54:102089. https://doi.org/10.1016/j.ijinfomgt.2020.102089
13. Chemidova A.B., Suvorov S.V., Tsarkova N.I., Zhilyaeva I.A. Aggregation of Indicators in OLAP-Cube. Russian economic online journal. 2019;(4):138. (In Russ., abstract in Eng.) EDN: XFTSUA
14. Popov S.G., Lisenkova A.A. Algorithms for MDX-query generation in multidimensional OLAP-cubes. Computing, Telecommunication and Control (St. Petersburg Polytechnical University Journal. Computer Science. Telecommunication and Control Systems. 2018;11(4):21-35. (In Russ., abstract in Eng.) https://doi.org/10.18721/JCSTCS.11402
15. Akhrem A.A., Nosov A.P., Rakhmankulov V.Z., Yuzhanin K.V. Computational complexity analysis of decomposition methods of OLAP hyper-cubes of multidimensional data. Mathematics and Mathematical Modelling. 2020;(4):52-64. (In Russ., abstract in Eng.) https://doi.org/10.24108/mathm.0420.0000221
16. Nosov A.P., Akhrem A.A., Rakhmankulov V.Z. Efficiency Analysis of OLAP-data Hypercube Decomposition for Exponential Computational Complexity Methods. Mathematics and Mathematical Modelling. 2021;(3):29-45. (In Russ., abstract in Eng.) https://doi.org/10.24108/mathm.0321.0000258
17. Akhrem A.A., Nosov A.P., Rakhmankulov V.Z. Analysing Efficiency Methods of Polynomial Complexity Degree in Multidimensional OLAP Cube Data Decomposition. Mathematics and Mathematical Modelling. 2021;(1):27-42. (In Russ., abstract in Eng.) https://doi.org/10.24108/mathm.0121.0000244
18. Bednyak S.G., Golovin A.V., Zaxarova O.I. Development of a Mathematical Model of an OLAP Cube Using 1C and Pentaho Bi. Information Systems and Technologies. 2020;(5):44-49. (In Russ., abstract in Eng.) EDN: VARFQQ
19. Cuzzocrea A., Simitsis A., Song I.-Y. Big Data Management: New Frontiers, New Paradigms. Information Systems. 2017;63:63-65. https://doi.org/10.1016/j.is.2016.07.002
20. Ramdane Y., Boussaid O., Boukraà D., Kabachi N., Bentayeb F. Building a novel physical design of a distributed big data warehouse over a Hadoop cluster to enhance OLAP cube query performance. Parallel Computing. 2022;111:102918. https://doi.org/10.1016/j.parco.2022.102918
21. Cuzzocrea A., Hafsaoui A., Leung C.K. Machine-Learning-Based Multidimensional Big Data Analytics over Clouds via Multi-Columnar Big OLAP Data Cube Compression. In: 2023 IEEE International Conference on Big Data (BigData). Sorrento, Italy: IEEE Computer Society; 2023. p. 5206-5212. https://doi.org/10.1109/BigData59044.2023.10386560
22. Ordonez C., Garcia-Alvarado C., Song I.-Y. Special issue on DOLAP 2015: Evolving data warehousing and OLAP cubes to big data analytics. Information Systems. 2017;68:1-2. https://doi.org/10.1016/j.is.2017.03.006
23. Hose K., Romero O., Song I.-Y. Trends in Design, Optimization, Languages, and Analytical Processing of Big Data (DOLAP 2020). Information Systems. 2022;104:101929. https://doi.org/10.1016/j.is.2021.101929
24. Abadi D., Boncz P., Harizopoulos S., Idreos S., Madden S. The Design and Implementation of Modern Column-Oriented Database Systems. Foundations and Trends in Databases. 2013;5(3):197-280. http://dx.doi.org/10.1561/1900000024
25. Shioi T., Hatano K. Rule- and Cost-Based Optimization of OLAP Workloads on Distributed RDBMS with Column-Oriented Storage Function. In: 2016 IEEE 4th International Conference on Future Internet of Things and Cloud Workshops (FiCloudW). Vienna, Austria: IEEE Computer Society; 2016. p. 165-170. https://doi.org/10.1109/W-FiCloud.2016.44
Опубликована
2023-10-15
Как цитировать
KUNITSKY, Dmitry Sergeevich; FOMIN, Maxim Borisovich. Использование колоночных СУБД для формирования многомерных структур данных. Современные информационные технологии и ИТ-образование, [S.l.], v. 19, n. 3, p. 607-613, oct. 2023. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/995>. Дата доступа: 08 oct. 2024 doi: https://doi.org/10.25559/SITITO.019.202303.607-613.