The Effect of the ADASYN Method on Widespread Metrics of Machine Learning Efficiency

Mukhit Abilkasymovich Baimakhanbetov; Kaidar Serikovich Nurumov; Ulzhan Abaevna Ospanova; Timur Kerimbekovich Buldybayev; Inessa Georgievna Akoyeva

doi:10.25559/SITITO.15.201902.290-297

Mukhit Abilkasymovich Baimakhanbetov АО "Информационно-Аналитический Центр" МОН РК http://orcid.org/0000-0003-4978-2704
Kaidar Serikovich Nurumov АО "Информационно-Аналитический Центр" МОН РК http://orcid.org/0000-0002-1514-0095
Ulzhan Abaevna Ospanova АО "Информационно-Аналитический Центр" МОН РК http://orcid.org/0000-0003-0427-7931
Timur Kerimbekovich Buldybayev АО "Информационно-Аналитический Центр" МОН РК http://orcid.org/0000-0001-8199-653X
Inessa Georgievna Akoyeva АО "Информационно-Аналитический Центр" МОН РК http://orcid.org/0000-0002-1984-150X

DOI: https://doi.org/10.25559/SITITO.15.201902.290-297

Аннотация

В статье представлены результаты экспериментальной работы по сравнению показателей эффективности алгоритмов машинного обучения на несбалансированных текстовых корпусах при помощи метода синтетического генерирования данных ADASYN и без него. Работа проведена на несбалансированном корпусе, состоящем из 5211 новостных текстов, сформированных методом кластерной выборки за один год. Разметка корпуса произведена по показателям тональности текстов по категориям: нейтральная, положительная и негативная, при значительном преобладании статей нейтральной тональности.
Существует множество широко используемых методов для преодоления проблемы дисбаланса данных. Часто, при работе с несбалансированными данными итоговая точность дает приемлемые результаты, но другие показатели эффективности очень низки. Такие противоречивые результаты часто имеют место, когда речь идет о глубоком анализе текста при исследовании социальных или медицинских явлений. В данной работе на примере анализа несбалансированного текстового корпуса методами К-ближайших соседей и Наивный Байес показано, как меняются распространенные метрики эффективности тех же самых алгоритмов машинного обучения при применении метода ADASYN.
Рассмотрен вопрос применения метода и его результаты при решении задачи классификации текстов. Сравнительные характеристики работы машинных алгоритмов до и после применения ADASYN предоставляют исследователю лучшее понимание того, на какие метрики эффективности машинного обучения лучше ориентироваться при работе с несбалансированными данными.
По итогам исследования представлены наблюдения и выводы авторов об особенностях применения метода и выдвинут ряд предложений по дальнейшим исследованиям в этой области для сравнения полученных результатов с эффектами от применения других методов.

Сведения об авторах

Mukhit Abilkasymovich Baimakhanbetov, АО "Информационно-Аналитический Центр" МОН РК

главный аналитик Департамента прикладных исследований и разработок

Kaidar Serikovich Nurumov, АО "Информационно-Аналитический Центр" МОН РК

менеджер Департамента прикладных исследований и разработок, магистр политических наук

Ulzhan Abaevna Ospanova, АО "Информационно-Аналитический Центр" МОН РК

проектный менеджер Департамента прикладных исследований и разработок, магистр менеджмента

Timur Kerimbekovich Buldybayev, АО "Информационно-Аналитический Центр" МОН РК

директор Департамента прикладных исследований и разработок

Inessa Georgievna Akoyeva, АО "Информационно-Аналитический Центр" МОН РК

главный аналитик Департамента прикладных исследований и разработок

Литература

[1] Luque A., Carrasco A., Martin A., Heras A. The impact of class imbalance in classification performance metrics based on the binary confusion matrix. Pattern Recognition. 2019; 91:216-231. (In Eng.) DOI: 10.1016/j.patcog.2019.02.023
[2] Fu G.H., Xu F., Zhang B.Y., Yi L.Zh. Stable variable selection of class-imbalanced data with precision-recall criterion. Chemometrics and Intelligent Laboratory Systems. 2017; 171:241-250. (In Eng.) DOI: 10.1016/j.chemolab.2017.10.015
[3] Zhang X., Wang D., Zhou Y., Chen H., Cheng F., Liu M. Kernel modified optimal margin distribution machine for imbalanced data classification. Pattern Recognition Letters. 2019; 125:325-332. (In Eng.) DOI: 10.1016/j.patrec.2019.05.005
[4] Haixiang G., Yijing L., Shang J., Mingyun G., Yuanyue H., Bing G. Learning from class-imbalanced data: Review of methods and applications. Expert Systems with Applications. 2017; 73:220-239. (In Eng.) DOI: 10.1016/j.eswa.2016.12.035
[5] Zhang S. Cost-Sensitive KNN Classification. Neurocomputing. 2019. (In Eng.) DOI: 10.1016/j.neucom.2018.11.101
[6] Zhang Y.C., Sakhanenko L. The naive Bayes classifier for functional data. Statistics & Probability Letters. 2019; 152:137-146. (In Eng.) DOI: 10.1016/j.spl.2019.04.017
[7] Abraham B., Nair M.S. Computer-aided diagnosis of clinically significant prostate cancer from MRI images using sparse autoencoder and random forest classifier. Biocybernetics and Biomedical Engineering. 2018; 38(3):733-744. (In Eng.) DOI: 10.1016/j.bbe.2018.06.009
[8] Feeney M. What Can Text Mining Reveal about the Use of Newspapers in Research? IFLA International News Media Conference “Collecting, Preserving, and Transforming the News – for Research and the Public” 27-28 April 2017. Landsbókasafn Íslands-Háskólabókasafn (The National and University Library of Iceland), Reykjavik, Iceland, 2017. Available at: https://www.ifla.org/files/assets/newspapers/2017_Iceland/2017-feeney-en.pdf (accessed 10.04.2019). (In Eng.)
[9] Kim D., Seo D., Cho S., Kang P. Multi-co-training for document classification using various document representations: TF-IDF, LDA, and Doc2Vec. Information Sciences. 2019; 477:15-29. (In Eng.) DOI: 10.1016/j.ins.2018.10.006
[10] Manning C.D., Schutze H. Foundations of Statistical Natural Language Processing. MIT Press, 2000. 620 p. (In Eng.)
[11] Gao J., Zhang J. Clustered SVD strategies in latent semantic indexing. Information Processing & Management. 2005; 41(5):1051-1063. (In Eng.) DOI: 10.1016/j.ipm.2004.10.005
[12] He H., & Garcia E.A. Learning from Imbalanced Data. IEEE Transactions on Knowledge and Data Engineering. 2009; 21(9):1263-1284. (In Eng.) DOI: 10.1109/tkde.2008.239
[13] Visa S. & Ramsay B., Ralescu A., & Knaap E. Confusion Matrix-based Feature Selection. CEUR Workshop Proceedings. 2011; 710:120-127. Available at: http://ceur-ws.org/Vol-710/paper37.pdf (accessed 10.04.2019). (In Eng.)
[14] Prasath S., Arafat A.A.H., Lasassmeh O., & Hassanat A. Distance and Similarity Measures Effect on the Performance of K-Nearest Neighbor Classifier - A Review. CoRR. 2017; abs/1708.04321. Available at: http://arxiv.org/abs/1708.04321 (accessed 10.04.2019). (In Eng.)
[15] Chomboon K., Chujai P., Teerarassammee P., Kerdprasop K., & Kerdprasop N. An Empirical Study of Distance Metrics for k-Nearest Neighbor Algorithm. Proceedings of the 3rd International Conference on Industrial Application Engineering 2015. The Institute of Industrial Applications Engineers, Japan, 2015; p. 280-285. (In Eng.) DOI: 10.12792/iciae2015.051
[16] Picek S., Heuser A., Jovic A., Bhasin S., Regazzoni F. The Curse of Class Imbalance and Conflicting Metrics with Machine Learning for Side-channel Evaluations. IACR Transactions on Cryptographic Hardware and Embedded Systems. 2018; 2019(1):209-237. (In Eng.) DOI: 10.13154/tches.v2019.i1.209-237
[17] Ah-Pine J., Soriano-Morales E.P. A Study of Synthetic Oversampling for Twitter Imbalanced Sentiment Analysis. Workshop on Interactions between Data Mining and Natural Language Processing (DMNLP 2016), Sep 2016, Riva del Garda, Italy, 2016. ffhal-01504684f. Available at: https://hal.archives-ouvertes.fr/hal-01504684 (accessed 10.04.2019). (In Eng.)
[18] Boughorbel S., Jarray F., El-Anbari M. Optimal classifier for imbalanced data using Matthews Correlation Coefficient metric. PLoS ONE. 2017; 12(6):e0177678. (In Eng.) DOI: 10.1371/journal.pone.0177678.
[19] Maldonado S., Lopez J., Vairetti C. An alternative SMOTE oversampling strategy for high-dimensional datasets. Applied Soft Computing. 2019; 76:380-389. (In Eng.) DOI: 10.1016/j.asoc.2018.12.024
[20] Chawla N., Japkowicz N., & Kotcz A. Editorial: Special Issue on Learning from Imbalanced Data Sets. ACM SIGKDD Explorations Newsletter - Special issue on learning from imbalanced datasets. 2004; 6(1):1-6. (In Eng.) DOI: 10.1145/1007730.1007733
[21] Chawla N.V., Lazarevic A., Hall L.O., Bowyer K.W. SMOTEBoost: Improving Prediction of the Minority Class in Boosting. In: Lavrač N., Gamberger D., Todorovski L., Blockeel H. (eds). Knowledge Discovery in Databases: PKDD 2003. PKDD 2003. Lecture Notes in Computer Science. Springer, Berlin, Heidelberg, 2003; 2838:107-119. (In Eng.) DOI: 10.1007/978-3-540-39804-2_12
[22] Guo H., Viktor H.L. Learning from Imbalanced Data Sets with Boosting and Data Generation: the DataBoost-IM Approach. ACM SIGKDD Explorations Newsletter - Special issue on learning from imbalanced datasets. 2004; 6(1):30-39. (In Eng.) DOI: 10.1145/1007730.1007736
[23] Chawla N.V., Bowyer K.W., Hall L.O., Kegelmeyer W.P. SMOTE: Synthetic Minority Oversampling Technique. Journal of Artificial Intelligence Research. 2002; 16: 321-357. (In Eng.) DOI: 10.1613/jair.953

Влияние метода ADASYN на широко распространенные метрики эффективности машинного обучения

Аннотация

Сведения об авторах

Литература

Наиболее читаемые статьи этого автора (авторов)