%A Baimakhanbetov, Mukhit Abilkasymovich %A Nurumov, Kaidar Serikovich %A Ospanova, Ulzhan Abaevna %A Buldybayev, Timur Kerimbekovich %A Akoyeva, Inessa Georgievna %D 2019 %T Влияние метода ADASYN на широко распространенные метрики эффективности машинного обучения %K %X В статье представлены результаты экспериментальной работы по сравнению показателей эффективности алгоритмов машинного обучения на несбалансированных текстовых корпусах при помощи метода синтетического генерирования данных ADASYN и без него. Работа проведена на несбалансированном корпусе, состоящем из 5211 новостных текстов, сформированных методом кластерной выборки за один год. Разметка корпуса произведена по показателям тональности текстов по категориям: нейтральная, положительная и негативная, при значительном преобладании статей нейтральной тональности. Существует множество широко используемых методов для преодоления проблемы дисбаланса данных. Часто, при работе с несбалансированными данными итоговая точность дает приемлемые результаты, но другие показатели эффективности очень низки. Такие противоречивые результаты часто имеют место, когда речь идет о глубоком анализе текста при исследовании социальных или медицинских явлений. В данной работе на примере анализа несбалансированного текстового корпуса методами К-ближайших соседей и Наивный Байес показано, как меняются распространенные метрики эффективности тех же самых алгоритмов машинного обучения при применении метода ADASYN. Рассмотрен вопрос применения метода и его результаты при решении задачи классификации текстов. Сравнительные характеристики работы машинных алгоритмов до и после применения ADASYN предоставляют исследователю лучшее понимание того, на какие метрики эффективности машинного обучения лучше ориентироваться при работе с несбалансированными данными. По итогам исследования представлены наблюдения и выводы авторов об особенностях применения метода и выдвинут ряд предложений по дальнейшим исследованиям в этой области для сравнения полученных результатов с эффектами от применения других методов. %U http://sitito.cs.msu.ru/index.php/SITITO/article/view/518 %J Современные информационные технологии и ИТ-образование %0 Journal Article %R 10.25559/SITITO.15.201902.290-297 %P 290-297%V 15 %N 2 %@ 2411-1473 %8 2019-07-25