Оценка качества статистических данных в задаче вычисления интегральной характеристики системы по ряду наблюдений

Аннотация

Построение интегральной характеристики системы по ряду наблюдений, фиксирующих состояние системы с некоторыми ошибками, можно рассматривать как задачу выделения полезного сигнала на фоне шумов. Сигналом в этом случае являются весовые коэффициенты линейной свертки показателей, которые должны отражать постоянную структуру оцениваемой системы в рассматриваемом периоде. Для ряда наблюдений методы многомерного анализа по-разному определяют структуру главных компонент (главных факторов). Даже небольшое возмущение исходных данных может вызвать значительное изменение весовых коэффициентов при использовании методов многомерного анализа. Причиной этого может являться наличие неустранимых погрешностей используемых данных. Поэтому существенным является вопрос об оценке качества используемых данных в задаче вычисления композитного индикатора качества системы по ряду наблюдений, а именно, оценка наличия в регистрируемых измерениях значительных неустранимых ошибок. В статье рассматривается применение метода конечных разностей для оценки неустранимых ошибок регистрации данных по ряду наблюдений. Для применения этой методики необходимо, чтобы данные допускали приближение полиномами более низких степеней, чем число наблюдений минус один. Справедливость предположения проверена эмпирически на конкретном наборе данных. Рассматриваются 37 переменных, характеризующих качество жизни населения России за 2010-2017 годы. Проанализированы зависимости качества аппроксимации данных от степени полиномиальной регрессии. Результаты численного эксперимента позволяют сделать вывод о правомерности оценки неустранимых погрешностей данных с помощью метода конечных разностей. Применение аппарата конечных разностей для анализа выборки показывает наличие неустранимых ошибок в исследуемой выборке от 0,59% до 28,92 %. Следовательно, получение композитных характеристик объектов на основании таких данных должно обязательно учитывать наличие неустранимой ошибки. В частности, число параметров и число наблюдений, характеризующих систему, должно быть достаточно большим, чтобы компенсировать случайные ошибки.

Сведения об авторе

Tatyana Valentinovna Zhgun, Новгородский государственный университет имени Ярослава Мудрого

доцент кафедры прикладной математики и информатики, Институт электронных и информационных систем, кандидат физико-математических наук, доцент

Литература

[1] Klyatskin V.I. Integral characteristics: a key to understanding structure formation in stochastic dynamic systems. Physics-Uspekhi. 2011; 54(5):441-464. (In Eng.) DOI: https://doi.org/10.3367/UFNe.0181.201105a.0457
[2] Zhgun T.V. Investigation of data quality in the problem of calculating the composite index of a system from a series of observations. Journal of Physics: Conference Series. 2020; 1658:012082. (In Eng.) DOI: https://doi.org/10.1088/1742-6596/1658/1/012082
[3] Bandura R. Composite indicators and rankings: inventory 2011. Tech. rep., United Nations Development Programme – Office of Development Studies; 2011. (In Eng.)
[4] Saltelli A., Mundo G., Nardo M. From Complexity to Multidimensionality: The Role of Composite Indicators for Advocacy of EU Reform. Review of Business and Economic Literature. 2006; LI(3):221-235. Available at: https://ideas.repec.org/a/ete/revbec/20060303.html (accessed 21.06.2020). (In Eng.)
[5] Foa R., Tanner J.C. Methodology of the Indices of Social Development. ISD Working Paper Series. 2012; 04. International Institute of Social Studies of Erasmus University Rotterdam (ISS), The Hague. Available at: http://repub.eur.nl/pub/50510/ISD-WP-2012-4.pdf (accessed 21.06.2020). (In Eng.)
[6] Mundo G., Nardo M. Noncompensatory/nonlinear composite indicators for ranking countries: a defensible setting. Applied Economics. 2009; 41(12):1513-1523. (In Eng.) DOI: https://doi.org/10.1080/00036840601019364
[7] Auerbach A.J., Gorodnichenko Yu., Murphy D. Macroeconomic Frameworks. NBER Working Paper. 2019; 26365. (In Eng.)
[8] Nardo M., Saisana M., Saltelli A., Tarantola S. Tools for Composite Indicators Building. Joint Research Centre, Ispra, Italy; 2005. Available at: https://ec.europa.eu/jrc/en/publication/eur-scientific-and-technical-research-reports/tools-composite-indicators-building(accessed 21.06.2020). (In Eng.)
[9] Krishnan V. Development of a Multidimensional Living Conditions Index (LCI). Social Indicators Research. 2015; 120(2):455-481. (In Eng.) DOI: https://doi.org/10.1007/s11205-014-0591-0
[10] Jacobs R., Goddard M., Smith P. Measuring Performance: An Examination of Composite Performance Indicators: A report for the Department of Health. York, UK: Centre for Health Economics, University of York; 2004. Available at: https://www.york.ac.uk/che/pdf/tp29.pdf (accessed 21.06.2020). (In Eng.)
[11] Zhgun T.V. Complex index of a system's quality for a set of observations. Journal of Physics: Conference Series. 2019; 1352(1):012064. (In Eng.) DOI: https://doi.org/10.1088/1742-6596/1352/1/012064
[12] Becker W., Saisana M., Paruolo P., Vandecasteele I. Weights and importance in composite indicators: Closing the gap. Ecological Indicators. 2017; 80:12-22. (In Eng.) DOI: https://doi.org/10.1016/j.ecolind.2017.03.056
[13] Paruolo P., Saisana M., Saltelli A. Ratings and rankings: voodoo or science? Journal of the Royal Statistical Society: Series A (Statistics in Society). 2013; 176(3):609-634. (In Eng.) DOI: https://doi.org/10.1111/j.1467-985X.2012.01059.x
[14] Mazziotta M., Pareto A. On The Construction Of Composite Indices By Principal Components Analysis. RIEDS - Rivista Italiana di Economia, Demografia e Statistica - Italian Review of Economics, Demography and Statistics. 2016; 70(1):103-109. Available at: http://www.sieds.it/listing/RePEc/journl/2016LXX_N1_RIEDS_103-109_Mazziotta_Pareto.pdf (accessed 21.06.2020). (In Eng.)
[15] Zhgun T.V . Method for evaluating the robustness of rankings generated by composite indices. Journal of Physics: Conference Series. 2019; 1352(1):012064. (In Eng.) DOI: https://doi.org/10.1088/1742-6596/1352/1/012065
[16] Batini C., Scannapieca M. Data Quality Dimensions. In: Data Quality. Data-Centric Systems and Applications. Springer, Berlin, Heidelberg; 2006. p. 19-49. (In Eng.) DOI: https://doi.org/10.1007/3-540-33173-5_2
[17] Herzog T.N., Scheuren F.J., Winkler W.E. What is Data Quality and Why Should We Care? In: Data Quality and Record Linkage Techniques. Springer, New York, NY; 2007. p. 7-15. (In Eng.) DOI: https://doi.org/10.1007/0-387-69505-2_2
[18] Wang R.Y., Kon H.B., Madnick S.E. Data quality requirements analysis and modeling. In: Proceedings of IEEE 9th International Conference on Data Engineering. Vienna, Austria; 1993. p. 670-677. (In Eng.) DOI: https://doi.org/10.1109/ICDE.1993.344012
[19] Weisberg S. Applied Linear Regression. 4th ed. Hoboken, NJ: Wiley; 2014. (In Eng.)
[20] Seber G.A.F., Lee A.J. Linear Regression Analysis. 2 nd ed. John Wiley & Sons, Inc.; 2003. (In Eng.) DOI: https://doi.org/10.1002/9780471722199
[21] Hoffmann J.P, Shafer K. Linear Regression Analysis. Assumptions and Applications. Washington: NASW Press; 2015. (In Eng.)
[22] Bingham N.H., Fry J.M. Regression: Linear Models in Statistics. London: Springer; 2010. (In Eng.) DOI: https://doi.org/10.1007/978-1-84882-969-5
[23] Montgomery D.C., Peck E.A., Vining G.G. Introduction to Linear Regression Analysis. Fifth ed. New York: Wiley; 2012. (In Eng.)
[24] Isakin M.A. Modification of the K-means method with an unknown number of classes. Applied Econometrics. 2006; (4):62-73. Available at: https://www.elibrary.ru/item.asp?id=9482376 (accessed 21.06.2020). (In Russ., abstract in Eng.)
[25] Aivazian S., Stepanov V., Kozlova M. Measuring the synthetic categories of quality of life in a region and identification of main trends to improve the social and economic policy (Samara region and its constituent territories). Applied Econometrics. 2006; (2):18-84. Available at: https://www.elibrary.ru/item.asp?id=9482361 (accessed 21.06.2020). (In Russ., abstract in Eng.)
Опубликована
2020-09-30
Как цитировать
ZHGUN, Tatyana Valentinovna. Оценка качества статистических данных в задаче вычисления интегральной характеристики системы по ряду наблюдений. Современные информационные технологии и ИТ-образование, [S.l.], v. 16, n. 2, p. 295-303, sep. 2020. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/633>. Дата доступа: 21 nov. 2024 doi: https://doi.org/10.25559/SITITO.16.202002.295-303.
Раздел
Теоретические вопросы информатики, прикладной математики, компьютерных наук