Применение стека технологий ELK для сбора и анализа системных журналов событий

Аннотация

Современные научные исследования во многих областях часто требуют использования мощных вычислительных систем и сложных программных комплексов для эффективного решения исследовательских задач. Многие научные организации строят собственные вычислительные комплексы, одним из примеров которых является облачная инфраструктура Объединенного института ядерных исследований. В процессе эксплуатации подобных крупных вычислительных систем неизбежно возникают нештатные ситуации и сбои, разрешение которых в первую очередь опирается на анализ системных журналов событий. С ростом масштаба инфраструктуры и усложнением ее структуры процесс анализа журналов событий также усложняется и для его эффективной реализации в крупномасштабных инфраструктурах требуется внедрение дополнительных инструментов. В данной работе рассматривается опыт организации и внедрения системы централизованного сбора и анализа системных журналов событий облачной инфраструктуры ОИЯИ. В качестве основы для разрабатываемой системы был взят стек технологий Elasticsearch, Logstash, Kibana (ELK), широко применяющийся для решения схожих задач во многих других крупных научных вычислительных инфраструктурах и хорошо себя зарекомендовавший как для решения задач сбора и анализа журналов событий различных систем, так в ряде иных задач анализа слабоструктурированных и неструктурированных данных. На примере реализации механизма обеспечения отказоустойчивости управляющих узлов облачной инфраструктуры ОИЯИ показано, что современные системы могут иметь динамически изменяемую конфигурацию, приводящую к усложнению изучения журналов событий, и как с помощью разработанной системы можно упростить их анализ в подобных ситуациях.

Сведения об авторах

Nikita Alexandrovich Balashov, Объединенный институт ядерных исследований

инженер-программист Лаборатории информационных технологий

Marina Vladimirovna Balashova, Государственный университет "Дубна"

старший преподаватель кафедры системного анализа и управления, Институт системного анализа и управления

Sergey Romanovich Knigin, Государственный университет "Дубна"

студент кафедры системного анализа и управления, Институт системного анализа и управления

Nikolay Alexandrovich Kutovskiy, Объединенный институт ядерных исследований

старший научный сотрудник Лаборатории информационных технологий, кандидат физико-математических наук

Литература

1.Nawsher Khan et al. Big Data: Survey, Technologies, Opportunities, and Challenges. The Scientific World Journal. 2014; 2014:712826. (In Eng.) DOI: https://doi.org/10.1155/2014/712826
2.Oussous A., Benjelloun F.-Z., Lahcen A.A., Belfkih S. Big Data technologies: A survey. Journal of King Saud University – Computer and Information Sciences. 2018; 30(4):431-448. (In Eng.) DOI: https://doi.org/10.1016/j.jksuci.2017.06.001
3.Armbrust M. et al. A view of cloud computing. Communications of the ACM. 2010; 53(4):50-58. (In Eng.) DOI: https://doi.org/10.1145/1721654.1721672
4.Varghese B., Buyya R. Next generation cloud computing: New trends and research directions. Future Generation Computer Systems. 2018; 79(3):849-861. (In Eng.) DOI: https://doi.org/10.1016/j.future.2017.09.020
5.Prathiba S., Sowvarnica S. Survey of failures and fault tolerance in cloud. 2017 2nd International Conference on Computing and Communications Technologies (ICCCT). Chennai, India, IEEE; 2017. p. 169-172. (In Eng.) DOI: https://doi.org/10.1109/ICCCT2.2017.7972271
6.Garraghan P., Townend P., Xu J. An Empirical Failure-Analysis of a Large-Scale Cloud Computing Environment. 2014 IEEE 15th International Symposium on High-Assurance Systems Engineering. Miami Beach, FL, USA, IEEE; 2014. p. 113-120. (In Eng.) DOI: https://doi.org/10.1109/HASE.2014.24
7.Kochhar D., Jabanjalin H. An approach for fault tolerance in cloud computing using machine learning technique. International Journal of Pure and Applied Mathematics. 2017; 117(22):345-351. (In Eng.) DOI: https://doi.org/10.13140/RG.2.2.31419.67366
8.He S. et al. A Survey on Automated Log Analysis for Reliability Engineering. arXiv:2009.07237. 2020. Available at: https://arxiv.org/abs/2009.07237 (accessed 02.03.2021). (In Eng.)
9.Du M., Li F. Spell: Online streaming parsing of large unstructured system logs. IEEE Transactions on Knowledge and Data Engineering. 2019; 31(11):2213-2227. (In Eng.) DOI: https://doi.org/10.1109/TKDE.2018.2875442
10.Wei D. et al. Research on unstructured text data mining and fault classification based on RNN-LSTM with malfunction inspection report. Energies. 2017; 10(3):406. (In Eng.) DOI: https://doi.org/10.3390/en10030406
11.Zhang Q., Cao J., Sui Y. Development of a research platform for BEPC II accelerator fault diagnosis. Radiation Detection Technology and Methods. 2020; 4(3):269-276. (In Eng.) DOI: https://doi.org/10.1007/s41605-020-00180-2
12.Balashov N.A., Baranov A.V., Kutovskiy N.A., Makhalkin A.N., Mazhitova Ye.M., Pelevanyuk I.S., Semenov R.N. Present Status and Main Directions of the JINR Cloud Development. CEUR Workshop Proceedings: Proc. of 27th International Symposium NEC-2019 (Budva, Montenegro). 2019; 2507:185-189. Available at: http://ceur-ws.org/Vol-2507/185-189-paper-32.pdf (accessed 02.03.2021). (In Eng.)
13.Balashov N. et al. Creating a Unified Educational Environment for Training IT Specialists of Organizations of the JINR Member States in the Field of Cloud Technologies. In: Sukhomlin V., Zubareva E. (Eds.) Modern Information Technology and IT Education. SITITO 2018. Communications in Computer and Information Science, vol. 1201. Springer, Cham; 2020. p. 149-162. (In Eng.) DOI: https://doi.org/10.1007/978-3-030-46895-8_12
14.Balashov N.A. et al. Cloud integration within the Dirac interware. CEUR Workshop Proceedings: Proc. of 27th International Symposium NEC-2019 (Budva, Montenegro). 2019; 2507:256-260. Available at: http://ceur-ws.org/Vol-2507/256-260-paper-45.pdf (accessed 02.03.2021). (In Eng.)
15.Barbaresi A., Tinoco A.R. Using Elasticsearch for Linguistic Analysis of Tweets in Time and Space. LREC 2018. Miyazaki, Japan; 2018. p. 14-19. Available at: https://hal.archives-ouvertes.fr/hal-01798706 (accessed 02.03.2021). (In Eng.)
16.Betke E., Kunkel J. Real-Time I/O-Monitoring of HPC Applications with SIOX, Elasticsearch, Grafana and FUSE. In: Kunkel J., Yokota R., Taufer M., Shalf J. (Eds.) High Performance Computing. ISC High Performance 2017. Lecture Notes in Computer Science, vol. 10524. Springer, Cham; 2017. p. 174-186. (In Eng.) DOI: https://doi.org/10.1007/978-3-319-67630-2_15
17.Psaila G., Fosci P. J-CO: A Platform-Independent Framework for Managing Geo-Referenced JSON Data Sets. Electronics. 2021; 10(5):621. (In Eng.) DOI: https://doi.org/10.3390/electronics10050621
18.Bajer M. Building an IoT Data Hub with Elasticsearch, Logstash and Kibana. 2017 5th International Conference on Future Internet of Things and Cloud Workshops (FiCloudW). Prague, Czech Republic, IEEE; 2017. p. 63-68. (In Eng.) DOI: https://doi.org/10.1109/FiCloudW.2017.101
19.Negoita O., Carabas M. Enhanced Security Using Elasticsearch and Machine Learning. In: Arai K., Kapoor S., Bhatia R. (Eds.) Intelligent Computing. SAI 2020. Advances in Intelligent Systems and Computing, vol. 1230. Springer, Cham; 2020. P. 244-254. (In Eng.) DOI: https://doi.org/10.1007/978-3-030-52243-8_19
20.Aimar A. et al. MONIT: Monitoring the CERN Data Centres and the WLCG Infrastructure. EPJ Web of Conferences. 2019; 214:08031. (In Eng.) DOI: https://doi.org/10.1051/epjconf/201921408031
21.Herner K. et al. Advances in grid computing for the fabric for frontier experiments project at Fermilab. Journal of Physics: Conference Series. 2017; 898(5):052026. (In Eng.) DOI: https://doi.org/10.1088/1742-6596/898/5/052026
22.Robles-Gómez A. et al. Using Kibana and ElasticSearch for the Recommendation of Job Offers to Students. CEUR Workshop Proceedings. 2017; 1925:93-99. Available at: http://ceur-ws.org/Vol-1925/paper09.pdf (accessed 02.03.2021). (In Eng.)
23.Han L., Zhu L. Design and Implementation of Elasticsearch for Media Data. 2020 International Conference on Computer Engineering and Application (ICCEA).Guangzhou, China; 2020. p. 137-140. (In Eng.) DOI: https://doi.org/10.1109/ICCEA50009.2020.00036
24.Andreeva J., Boehm M., Gaidioz B. et al. Experiment Dashboard for Monitoring Computing Activities of the LHC Virtual Organizations. Journal of Grid Computing. 2010; 8(2):323-339. (In Eng.) DOI: https://doi.org/10.1007/s10723-010-9148-x
25.Kuc R., Rogozinski M. Mastering Elasticsearch. 2nd ed. Packt Publishing Ltd., Birmingham; 2015. (In Eng.)
Опубликована
2021-04-15
Как цитировать
BALASHOV, Nikita Alexandrovich et al. Применение стека технологий ELK для сбора и анализа системных журналов событий. Современные информационные технологии и ИТ-образование, [S.l.], v. 17, n. 1, p. 61-68, apr. 2021. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/731>. Дата доступа: 01 oct. 2022 doi: https://doi.org/10.25559/SITITO.17.202101.731.