TY - JOUR AU - Balashov, Nikita Alexandrovich AU - Balashova, Marina Vladimirovna AU - Knigin, Sergey Romanovich AU - Kutovskiy, Nikolay Alexandrovich PY - 2021 TI - Применение стека технологий ELK для сбора и анализа системных журналов событий JF - Современные информационные технологии и ИТ-образование; Том 17 № 1 (2021): Современные информационные технологии и ИТ-образование DO - 10.25559/SITITO.17.202101.731 KW - N2 - Современные научные исследования во многих областях часто требуют использования мощных вычислительных систем и сложных программных комплексов для эффективного решения исследовательских задач. Многие научные организации строят собственные вычислительные комплексы, одним из примеров которых является облачная инфраструктура Объединенного института ядерных исследований. В процессе эксплуатации подобных крупных вычислительных систем неизбежно возникают нештатные ситуации и сбои, разрешение которых в первую очередь опирается на анализ системных журналов событий. С ростом масштаба инфраструктуры и усложнением ее структуры процесс анализа журналов событий также усложняется и для его эффективной реализации в крупномасштабных инфраструктурах требуется внедрение дополнительных инструментов. В данной работе рассматривается опыт организации и внедрения системы централизованного сбора и анализа системных журналов событий облачной инфраструктуры ОИЯИ. В качестве основы для разрабатываемой системы был взят стек технологий Elasticsearch, Logstash, Kibana (ELK) , широко применяющийся для решения схожих задач во многих других крупных научных вычислительных инфраструктурах и хорошо себя зарекомендовавший как для решения задач сбора и анализа журналов событий различных систем, так в ряде иных задач анализа слабоструктурированных и неструктурированных данных. На примере реализации механизма обеспечения отказоустойчивости управляющих узлов облачной инфраструктуры ОИЯИ показано, что современные системы могут иметь динамически изменяемую конфигурацию, приводящую к усложнению изучения журналов событий, и как с помощью разработанной системы можно упростить их анализ в подобных ситуациях. UR - http://sitito.cs.msu.ru/index.php/SITITO/article/view/731