TY - JOUR AU - Ospanova, Ulzhan Abaevna AU - Baimakhanbetov, Mukhit Abilkasymovich AU - Akoyeva, Inessa Georgievna AU - Buldybayev, Timur Kerimbekovich AU - Atanayeva, Miraim Kazhmukhambetovna PY - 2020/05/25 TI - Особенности формирования корпуса текстов казахстанского сегмента электронных новостей JF - Современные информационные технологии и ИТ-образование; Том 16 № 1 (2020): Современные информационные технологии и ИТ-образованиеDO - 10.25559/SITITO.16.202001.90-98 KW - N2 - Культура потребления населением онлайн-новостей продолжает формироваться и набирает популярность, увеличивая аудиторию читателей. В тоже время возрастает и число тех, кто попадает под негативное влияние недостоверных новостей. Перед исследователями встает задача анализа массмедиа. Одним из направлений анализа новостного контента является тематическое моделирование, распознавание фейковых новостей, сентимент-анализ. Однако для проведения исследований в данных областях необходим размеченный корпус. В данной работе представлены методологические основы формирования корпуса описывающих сбор данных и отбор источников для формирования корпуса. Также представлено описание теоретических основ представительности и сбалансированности и обосновано соответствие корпуса выдвигаемым требованиям. В ходе проведенного комплекса работ сформирован корпус новостных текстов, включающий 1,9 млн статей из 22 источников. Проведена разметка корпуса. Проведен анализ тематической структуры сформированного корпуса с применением модели LDA. Сформированный корпус позволит апробировать алгоритмы машинного обучения, направленные на распознавание отдельных информативных признаков, и выявить закономерности, присутствующие в массиве новостных публикаций. Также корпус будет полезен исследователям в области машинного обучения и NLP для тестирования алгоритмов машинного обучения согласно собственным целям. UR - http://sitito.cs.msu.ru/index.php/SITITO/article/view/612