Разработка и анализ методики отбора инфраструктурных метрик для предиктивного мониторинга инцидентов
Аннотация
Рост объёма телеметрии в распределённых ИТ-системах приводит к "информационному шуму" и увеличивает вычислительные затраты AIOps-платформ. В работе предложена формализованная двухэтапная процедура отбора метрик, предназначенная для повышения точности и эффективности предиктивного мониторинга: (1) мультикритериальный корреляционный фильтр, использующий коэффициенты Пирсона (|r| > 0,60), τ-Кендалла (> 0,50) и Maximal Information Coefficient (MICe > 0,35) для отсева избыточных и нелинейно связанных признаков; (2) верификация причинно-следственных связей с помощью теста Грейнджера (lag = 5, p < 0,01), алгоритма PCMCI (FDR = 10%) и метрики Directed Information (DI > 0,1 бит/шаг) для выявления истинных драйверов целевой метрики. Экспериментальная апробация методики проведена на 14-суточном фрагменте потока Prometheus-метрик промышленного кластера системы "Сбер Antifraud" (≈ 7 млрд точек данных, 1379 исходных метрик). Результаты показали снижение средней абсолютной ошибки (MAE) прогноза 30-минутной утилизации CPU на 43% при одновременном уменьшении числа входных временных рядов в 14 раз и сокращении времени инференса модели на 89%. Методика интегрирована в промышленный конвейер обработки данных (Prometheus → Kafka → Spark 3.5 → MLflow 2.11) и соответствует принципу минимизации обрабатываемых данных, закреплённому в ГОСТ Р 57580.1-2017 и методических рекомендациях ФСТЭК РФ по защите информации.
Литература
2. Lebed S.V. Innovative Technologies in Cybersecurity. Modern Information Technologies and IT-Education. 2022;18(2):383-390. (In Russ., abstract in Eng.) https://doi.org/10.25559/SITITO.18.202202.383-390
3. Ionescu S.-A., Diaconita V., Radu A.-O. Engineering Sustainable Data Architectures for Modern Financial Institutions. Electronics. 2025;14(8):1650. https://doi.org/10.3390/electronics14081650
4. Weinberg A.I., Premebida C., Faria D.R. Causality from Bottom to Top: A Survey. arXiv:2403.11219. 2024. https://doi.org/10.48550/arXiv.2403.11219
5. Naghoosi E., Huang B., Domlan E., Kadali R. Information transfer methods in causality analysis of process variables with an industrial application. Journal of Process Control. 2013;23(9):1296-1305. https://doi.org/10.1016/j.jprocont.2013.02.003
6. Chatfield C. The Holt-Winters Forecasting Procedure. Journal of the Royal Statistical Society. Series C (Applied Statistics). 1978;27(3):264-279. https://doi.org/10.2307/2347162
7. Nashold L., Krishnan R. Using LSTM and SARIMA Models to Forecast Cluster CPU Usage. arXiv:2007.08092. 2020. https://doi.org/10.48550/arXiv.2007.0809
8. Widiputra H., Mailangkay A., Gautama E. Multivariate CNN‐LSTM Model for Multiple Parallel Financial Time‐Series Prediction. Complexity. 2021;2021(1):9903518. https://doi.org/10.1155/2021/9903518
9. Das T., Guchhai S. A hybrid GRU and LSTM-based deep learning approach for multiclass structural damage identification using dynamic acceleration data. Engineering Failure Analysis. 2025;170:109259. https://doi.org/10.1016/j.engfailanal.2024.10925
10. Mienye E., Jere N., Obaido G., Mienye I.D., Aruleba K. Deep Learning in Finance: A Survey of Applications and Techniques. AI. 2024;5(4):2066-2091. https://doi.org/10.3390/ai5040101
11. Battiti R. Using Mutual Information for Selecting Features in Supervised Neural Net Learning. IEEE Transactions on Neural Networks. 1994;5(4):537-550. https://doi.org/10.1109/72.298224
12. Vergara J.R., Estévez P.A. A Review of Feature Selection Methods Based on Mutual Information. Neural Computing and Applications. 2024;24:175-186. https://doi.org/10.1007/s00521-013-1368-0
13. Reshef D., et al. Detecting Novel Associations in Large Data Sets. Science. 2011;334(6062):1518-1524. https://doi.org/10.1126/science.1205438
14. Lütkepohl H. New Introduction to Multiple Time Series Analysis. Berlin, Heidelberg: Springer; 2005. 764 p. https://doi.org/10.1007/978-3-540-27752-1
15. Runge J. et al. Detecting Causal Associations in Large Nonlinear Time Series. Science Advances. 2019;5(10):eaau4996. https://doi.org/10.1126/sciadv.aau4996
16. Massey J. Causality, Feedback and Directed Information. Proc. Int. Symp. Information Theory (ISIT 1990). 1990. p. 303-305. Available at: https://www.isiweb.ee.ethz.ch/archive/massey_pub/pdf/BI532.pdf (accessed 13.02.2025).
17. Mienye I. D., Swart T. G., Obaido G. Recurrent Neural Networks: A Comprehensive Review of Architectures, Variants, and Applications. Information. 2024;15(9):517. https://doi.org/10.3390/info15090517
18. Gong C., Zhang C., Yao D., Bi J., Li W., Xu Y.-J. Causal Discovery from Temporal Data: An Overview and New Perspectives. ACM Computing Surveys. 2024;57(4):100. https://doi.org/10.1145/3705297
19. Wang K., Tan Y., Zhang L., Chen Z., Lei J. A Network Traffic Prediction Method for AIOps Based on TDA and Attention GRU. Applied Sciences. 2022;12(20):10502. https://doi.org/10.3390/app122010502
20. Cheng X. A Comprehensive Study of Feature Selection Techniques in Machine Learning Models. Artificial Intelligence and Digital Technology. 2024;1(1):65-78. https://doi.org/10.70088/xpf2b276
21. Zhang G.P. Time series forecasting using a hybrid ARIMA and neural network model. Neurocomputing. 2003;50:159-175. https://doi.org/10.1016/S0925-2312(01)00702-0
22. Pearl J. The mathematics of causal inference. In: Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining (KDD'11). New York, NY, USA: Association for Computing Machinery; 2011. p. 5. https://doi.org/10.1145/2020408.2020416
23. Gyeera T.W., Simons A.J.H., Stannett M. Regression Analysis of Predictions and Forecasts of Cloud Data Center KPIs Using the Boosted Decision Tree Algorithm. IEEE Transactions on Big Data. 2023;9(4):1071-1085. https://doi.org/10.1109/TBDATA.2022.3230649
24. Greener T., Costanza J., et al. Calculating the Carbon Footprint of AI. IEEE Access. 2023;11:82809-82823.
25. West M., Harrison P. Bayesian Forecasting and Dynamic Models. Springer Series in Statistics. New York: Springer Science & Business Media; 1997. 682 p. https://doi.org/10.1007/b98971

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.