О ПОДХОДАХ К АНАЛИЗУ ДЕМОГРАФИЧЕСКИХ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ МАШИННОГО ОБУЧЕНИЯ
Аннотация
Демографические данные являются достаточно доступными наборами данных, которые могут быть использованы для анализа с применением современных технологий искусственного интеллекта и машинного обучения (ML). Однако, они не могут быть использованы для этих целей без проведения специальных подготовительных процедур. К подготовительным мероприятиям относятся процедуры включающие работу с признаками, работу с отсутствующими данными, их нормализация и проектирования признаков. В статье на примере «Распределение населения по возрастным группам» показаны особенности демографических данных и предложены подходы по их подготовке к последующему использованию технологий искусственного интеллекта и машинного обучения для их анализа.
Проведенное исследования позволило получить следующие результаты. Установлено, что демографические данные обладают рядом особенностей, которые могут быть и должны использоваться в процессе повышения качества наборов данных для последующей работы с ними с использованием технологий искусственного интеллекта и машинного обучения. К особенностям демографических данных относится, в первую очередь, их временная упорядоченность, во вторых, демографические данные имеют предсказуемые пределы изменений, которые определяются социально-экономическими факторами, и отсутствие значительных перепадов между ближайшими значениями наблюдаемых данных.
На демографические данные оказывают влияние процессы в обществе социально-политического и экономического характера в различные исторические периоды, что необходимо учитывать при работе с демографическими данными. Демографическим данным, которые могут быть отнесены к определенным историческим периодам, следует уделять особое внимание поскольку их значения могут как повышать качество набора данных для машинной обработки, так и быть причиной возникновения и роста систематических и случайных ошибок. Предлагаемые подходы могут иметь практическое приложение к решению задач прогнозирования народонаселения, определения структуры и состава возрастных групп, оценки продолжительности жизни, определение состава населения трудоспособного (экономически активного) возраста и ряда других задач.
Литература
[2] Brink H., Richards J., Fetherolf M. Real-World Machine Learning. Manning, 2016. 264 p.
[3] Bughin J. et al. Artificial Intelligence: The Next Digital Frontier? Discussion Paper. McKinsey & Company, 2017. 78 p. Available at: https://www.mckinsey.com/~/media/McKinsey/Industries/Advanced%20Electronics/Our%20Insights/How%20artificial%20intelligence%20can%20deliver%20real%20value%20to%20companies/MGI-Artificial-Intelligence-Discussion-paper.ashx (accessed 23.09.2018).
[4] Lushnikov A.A., Kagan, A.I., Gvishiani, A.D., Lyubovtseva, Yu.S. Modeling of the evolutionary demographic processes for geomedicine. Geophysical Pprocesses and Biosphere. 2013; 12(3):5-18. Available at: https://elibrary.ru/item.asp?id=20265158 (accessed 23.09.2018). (In Russian)
[5] Poklonova E.V., Zakharenko P.V. Statistical analysis of the dynamics of the structure of the unemployed population in the Russian Federation. Problems of the Modern Economy (Novosibirsk). 2014; 22-2:164-171. Available at: https://elibrary.ru/item.asp?id=22676948 (accessed 23.09.2018). (In Russian)
[6] Bozhko T.N. Demographic assessment of the dynamics of the number and composition of the population for 2010-2016. Proceedings of the Actual problems of the development of economic entities, territories and systems of regional and municipal government. 2017, pp. 9-13. Available at: https://elibrary.ru/item.asp?id=29371066 (accessed 23.09.2018). (In Russian)
[7] Karamnova L.V., Koporova M.A. Prospects for creating artificial intelligence. Gagarin Readings 2017. М.: МАI, 2017, pp. 1178-1179. Available at: https://elibrary.ru/item.asp?id=30084898 (accessed 23.09.2018). (In Russian)
[8] Daragan A.D., Ezhov G.L., Ezhov G.A. On the methodological aspects of the implementation of training procedures for artificial intelligence systems. Modern Pedagogical Education. 2017; 3:23-24. Available at: https://elibrary.ru/item.asp?id=30731184 (accessed 23.09.2018). (In Russian)
[9] Andreev E.M., Vishnevsky A.G. The nearest demographic perspectives of Russia. Demoscope Weekly. 2014; 601-602:1-25. Available at: http://www.demoscope.ru/weekly/2014/0601/demoscope601.pdf (accessed 23.09.2018). (In Russian)
[10] Moskvitin A.A., Soziev T.M. Features of modern methods of data mining. Modern Methods of Data Mining in Economic, Humanitarian, and Natural Sciences. Proceedings of the international scientific-practical conference. Pyatigorsk, 2016. pp. 11-18. Available at: https://elibrary.ru/item.asp?id=30088652 (accessed 23.09.2018). (In Russian)
[11] Krivonosov N.A. The use of artificial intelligence as a means of analyzing / evaluating the activities of logistics companies. A Step to the Future: Artificial Intelligence and the Digital Economy. Proceedings of the 1st International Scientific Practical Conference. Vol. 3. M.: SUM, 2017, pp. 99-106. Available at: https://elibrary.ru/item.asp?id=32772302 (accessed 23.09.2018). (In Russian)
[12] Pidyashova O.P. Studies of the standard of living of the population in modern conditions (regional aspect). Journal of Economy and entrepreneurship. 2015; 12-1:1083-1090. Available at: https://elibrary.ru/item.asp?id=25031618 (accessed 23.09.2018). (In Russian)
[13] Solovev A.I. A Person in a Digital Economy: Analog or Discrete? Scientific Works of the Free Economic Society of Russia. 2018; 210(2):130-134. Available at: https://elibrary.ru/item.asp?id=35041906 (accessed 23.09.2018). (In Russian)
[14] Kupriyanovskiy V.P., Sotnikov A.E., Solovev A.I., Drozhzhinov V.I., Namiot D.E., Mamaev V.Yu., Kupriyanovskiy P.V. AADHAAR - Identification of the Person in the Digital Economy. International Journal of Open Information Technologies. 2017; 5(2):34-45. Available at: https://elibrary.ru/item.asp?id=28314924 (accessed 23.09.2018). (In Russian)
[15] Gepp A., Linnenluecke M.K., O’Neill T.J. Tom Smith Big data techniques in auditing research and practice: Current trends and future opportunities. Journal of Accounting Literature. 2018; 40:102-115. DIO: 10.1016/j.acclit.2017.05.003
[16] Kauffman R.J., Kim K., Lee S-Y.T. Hoang A-P., Ren J. Combining machine-based and econometrics methods for policy analytics insights. Electronic Commerce Research and Applications. 2017; 25(C):115-140. DOI: 10.1016/j.elerap.2017.04.004
[17] Dremel С., Herterich M.M., Wulf J., vom Brocke J. Actualizing Big Data Analytics Affordances: A Revelatory Case Study. Information & Management. 2018. DOI: 10.1016/j.im.2018.10.007
[18] McClean S.I. Data Mining and Knowledge Discovery. Encyclopedia of Physical Science and Technology. (Third Edition), 2003, pp. 229-246. DOI: 10.1016/B0-12-227410-5/00845-0
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.