Метрики оценки качества числовых параметров динамических систем
Аннотация
Проблема неопределённости качества входных данных, описывающих систему, является одной из наиболее существенных проблем при построении систем управления сложными объектами. Еще более остро такая проблема стоит при управлении слабо формализованными (мягкими) системами. Критически важным компонентом управления качеством данных является разработка метрик, информирующих потребителей о характеристиках качества, которые наиболее важны для оценки степени пригодности данных к использованию. В статье предлагаются такие параметры для измерения качества данных как точность данных, которая определяется как совпадение характеристики набора данных с неискаженными характеристиками реального объекта, и достоверность данных, которая определяется как несовпадение характеристики набора данных с характеристиками объекта, все регистрируемые параметры абсолютно случайны. Приводятся формулы для определения мер этих параметров качества, использующие аппарат конечных разностей. Предлагаемая методика предоставляет достаточно формализованный и вычислительно несложный алгоритм оценки качества совокупности входных параметров слабо формализованной динамической системы. Предлагаемые оценки являются эффективными метриками качества, анализ которых позволяет инициировать алгоритм управления, выделяющий полезный сигнал из зашумленного потока данных. Предлагаемая методика применена для анализа совокупности статистических данных, характеризующих качество жизни населения субъектов Российской Федерации за 2009-2019 годы. Анализ показывает, что значительное число рассматриваемых параметров имеют значительную ошибку регистрации и недостаточную степень достоверности. Следовательно, использование таких данных, как основы для принятия решений, без учета имеющихся искажений привносит ошибки в оценки и прогнозы и, как следствие, приводит к значительному снижению качества принимаемых управленческих решений. В частности, вычисление композитных индексов качества системы по однократному наблюдению по данным статистических измерений с помощью математических методов не предполагает устранения имеющейся шумовой компоненты данных, вследствие чего полученный результат может быть неправдоподобным.
Литература
2. Stanisz T., Drożdż S., Kwapień J. Complex systems approach to natural language. Physics Reports. 2024;1053:1-84. https://doi.org/10.1016/j.physrep.2023.12.002
3. Hangos K.M., Tuza Zs. Optimal control structure selection for process systems. Computers & Chemical Engineering. 2001;25(11-12):1521-1536. https://doi.org/10.1016/S0098-1354(01)00716-5
4. Xue L., Liu Z.-G. Adaptive Control for Complex Systems with Dynamics and Time-Varying Powers. Complexity. 2023;2023:2127312. https://doi.org/10.1155/2023/2127312
5. Bian J., Lyu T., Loiacono A., Viramontes T.M., Lipori G.Y., Guo Y., Wu Y. Prosperi M., George T.J., Harle C.A., Shenkman E.A. Assessing the practice of data quality evaluation in a national clinical data research network through a systematic scoping review in the era of real-world data. Journal of the American Medical Informatics Association. 2020;27(12):1999-2010. https://doi.org/10.1093/jamia/ocaa245
6. Azeroual O., Abuosba M. Improving the Data Quality in the Research Information Systems. International Journal of Computer Science and Information Security. 2017;15(11):82-86. Available at: https://dspacecris.eurocris.org/retrieve/2415/Azeroual_IJCSIS_201711.pdf (accessed 14.02.2023).
7. Fürber C. Data Quality. In: Data Quality Management with Semantic Technologies. Wiesbaden: Springer Gabler; 2016. p. 20-55. https://doi.org/10.1007/978-3-658-12225-6_3
8. Batini C., Scannapieca M. Data Quality Dimensions. In: Data Quality. Data-Centric Systems and Applications. Berlin, Heidelberg: Springer; 2006. p. 19-49. https://doi.org/10.1007/3-540-33173-5_2
9. Herzog T.N., Scheuren F.J., Winkler W.E. What is Data Quality and Why Should We Care? In: Data Quality and Record Linkage Techniques. New York, NY: Springer; 2007. p. 7-15. https://doi.org/10.1007/0-387-69505-2_2
10. Wang R.Y., Kon H.B., Madnick S.E. Data quality requirements analysis and modeling. In: Proceedings of the 9th International Conference of Data Engineering. Vienna, Austria; 993. p. 670-677. Available at: https://web.mit.edu/tdqm/www/tdqmpub/IEEEDEApr93.pdf (accessed 14.02.2023).
11. Redman T.C. Data Driven: Profiting from Your Most Important Business Asset. Harvard Business Press; 2008. 272 p.
12. Fadahunsi K.P., Akinlua J.T., O Connor S., Wark P.A., Gallagher J., Carroll C., Majeed A., O Donoghue J. Protocol for a systematic review and qualitative synthesis of information quality frameworks in eHealth. BMJ Open. 2019;9(3):e024722. https://doi.org/10.1136/bmjopen-2018-024722
13. Redman . Data Quality: The Field Guide. Digital Press; 2001. 260 p.
14. English L.P. Improving Data Warehouse and Business Information Quality: Methods For Reducing Costs And Increasing Profits. John Wiley and Sons; 1999. 544 p.
15. Jugulum R. Competing with High Quality Data. Wiley; 2014. 307 p.
16. Caballero I., Gualo F., Rodríguez M., Piattini M. BR4DQ: A methodology for grouping business rules for data quality evaluation. Information Systems. 2022;109:102058. https://doi.org/10.1016/j.is.2022.102058
17. Batini C., Scannapieco M. Data Quality: Concepts, Methodologies and Techniques. Data-Centric Systems and Applications. Berlin: Springer; 2006. 262 p. https://doi.org/10.1007/3-540-33173-5
18. Myers D. The Value of Using the Dimensions of Data Quality. Information Management. 2013. p. 1-5. Available at: https://dqmatters.com/_download/2013-04-01_the-value-of-using-the-dimensions-of-data-quality(DanMyers).pdf?src=imdm2013 (accessed 14.02.2023).
19. Sebastian-Coleman L. Measuring Data Quality for Ongoing Improvement: A Data Quality Assessment Framework. Morgan Kaufmann; 2013. 376 p. https://doi.org/10.1016/C2011-0-07321-0
20. Wang J., Liu Y., Li P., Lin Z., Sindakis S., Aggarwal S. Overview of Data Quality: Examining the Dimensions, Antecedents, and Impacts of Data Quality. Journal of the Knowledge Economy. 2023. https://doi.org/10.1007/s13132-022-01096-6
21. Zhgun T.V. Evaluation of Statistical Data Quality in the Problem of Calculating the Inte-gral Characteristic of a System for a Number of Observations. Modern Information Technologies and IT-Education. 2020;16(2):295-303. (In Russ., abstract in Eng.) https://doi.org/10.25559/SITITO.16.202002.295-303
22. Zhgun T.V. Investigation of data quality in the problem of calculating the composite index of a system from a series of observations. Journal of Physics: Conference Seriesthis. 2020;1658(1):012082. https://doi.org/10.1088/1742-6596/1658/1/012082
23. Zhgun T.V. Data transformations when constructing a composite system quality index. Journal of Physics: Conference Seriesthis. 2021;2052:012058. https://doi.org/10.1088/1742-6596/2052/1/012058
24. Zhgun T.V. Complex index of a system s quality for a set of observations. Journal of Physics: Conference Series. 2019;1352(1):012064. https://doi.org/10.1088/1742-6596/1352/1/012064
25. Zhgun T.V. The Application of Data Transformations in the Calculation of a Composite Index of a System s Quality. Modern Information Technologies and IT-Education. 2021;17(3):550-563. (In Russ., abstract in Eng.) https://doi.org/10.25559/SITITO.17.202103.550-563
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.