Разработка и анализ методики отбора инфраструктурных метрик для предиктивного мониторинга инцидентов

  • Andrew Vladimirovich Egorkin Московский государственный университет имени М. В. Ломоносова; Публичное акционерное общество "Сбербанк России" http://orcid.org/0009-0002-9329-3641

Аннотация

Рост объёма телеметрии в распределённых ИТ-системах приводит к "информационному шуму" и увеличивает вычислительные затраты AIOps-платформ. В работе предложена формализованная двухэтапная процедура отбора метрик, предназначенная для повышения точности и эффективности предиктивного мониторинга: (1) мультикритериальный корреляционный фильтр, использующий коэффициенты Пирсона (|r| > 0,60), τ-Кендалла (> 0,50) и Maximal Information Coefficient (MICe > 0,35) для отсева избыточных и нелинейно связанных признаков; (2) верификация причинно-следственных связей с помощью теста Грейнджера (lag = 5, p < 0,01), алгоритма PCMCI (FDR = 10%) и метрики Directed Information (DI > 0,1 бит/шаг) для выявления истинных драйверов целевой метрики. Экспериментальная апробация методики проведена на 14-суточном фрагменте потока Prometheus-метрик промышленного кластера системы "Сбер Antifraud" (≈ 7 млрд точек данных, 1379 исходных метрик). Результаты показали снижение средней абсолютной ошибки (MAE) прогноза 30-минутной утилизации CPU на 43% при одновременном уменьшении числа входных временных рядов в 14 раз и сокращении времени инференса модели на 89%. Методика интегрирована в промышленный конвейер обработки данных (PrometheusKafkaSpark 3.5MLflow 2.11) и соответствует принципу минимизации обрабатываемых данных, закреплённому в ГОСТ Р 57580.1-2017 и методических рекомендациях ФСТЭК РФ по защите информации.

Сведения об авторе

Andrew Vladimirovich Egorkin, Московский государственный университет имени М. В. Ломоносова; Публичное акционерное общество "Сбербанк России"

студент совместной магистратуры "Кибербезопасность МГУ-СБЕР" факультета вычислительной математики и кибернетики; старший инженер по разработке Управления развития платформенных сервисов кибербезопасности, Блок "Технологии", Департамент ИТ блока "Сервисы" и безопасности

Опубликована
2025-04-28
Как цитировать
EGORKIN, Andrew Vladimirovich. Разработка и анализ методики отбора инфраструктурных метрик для предиктивного мониторинга инцидентов. Современные информационные технологии и ИТ-образование, [S.l.], v. 21, n. 1, apr. 2025. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/1193>. Дата доступа: 02 june 2025
Раздел
Теоретические и прикладные аспекты кибербезопасности