Особенности формирования корпуса текстов казахстанского сегмента электронных новостей

Аннотация

Культура потребления населением онлайн-новостей продолжает формироваться и набирает популярность, увеличивая аудиторию читателей. В тоже время возрастает и число тех, кто попадает под негативное влияние недостоверных новостей. Перед исследователями встает задача анализа массмедиа. Одним из направлений анализа новостного контента является тематическое моделирование, распознавание фейковых новостей, сентимент-анализ. Однако для проведения исследований в данных областях необходим размеченный корпус.
В данной работе представлены методологические основы формирования корпуса описывающих сбор данных и отбор источников для формирования корпуса. Также представлено описание теоретических основ представительности и сбалансированности и обосновано соответствие корпуса выдвигаемым требованиям. В ходе проведенного комплекса работ сформирован корпус новостных текстов, включающий 1,9 млн статей из 22 источников. Проведена разметка корпуса. Проведен анализ тематической структуры сформированного корпуса с применением модели LDA.
Сформированный корпус позволит апробировать алгоритмы машинного обучения, направленные на распознавание отдельных информативных признаков, и выявить закономерности, присутствующие в массиве новостных публикаций. Также корпус будет полезен исследователям в области машинного обучения и NLP для тестирования алгоритмов машинного обучения согласно собственным целям.

Сведения об авторах

Ulzhan Abaevna Ospanova, АО "Информационно-аналитический центр" МОН РК

проектный менеджер Департамента прикладных исследований и разработок, магистр менеджмента

Mukhit Abilkasymovich Baimakhanbetov, АО "Информационно-аналитический центр" МОН РК

главный аналитик Департамента прикладных исследований и разработок

Inessa Georgievna Akoyeva, АО "Информационно-аналитический центр" МОН РК

главный аналитик Департамента прикладных исследований и разработок

Timur Kerimbekovich Buldybayev, АО "Информационно-аналитический центр" МОН РК

директор Департамента прикладных исследований и разработок

Miraim Kazhmukhambetovna Atanayeva, АО "Информационно-аналитический центр" МОН РК

И.о. президента АО "Информационно-аналитический центр" МОН РК; магистр государственного и местного управления

Опубликована
2020-05-25
Как цитировать
OSPANOVA, Ulzhan Abaevna et al. Особенности формирования корпуса текстов казахстанского сегмента электронных новостей. Международный научный журнал «Современные информационные технологии и ИТ-образование», [S.l.], v. 16, n. 1, may 2020. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/612>. Дата доступа: 09 aug. 2020
Раздел
Исследования и разработки в области новых ИТ и их приложений