Влияние метода ADASYN на широко распространенные метрики эффективности машинного обучения
Аннотация
В статье представлены результаты экспериментальной работы по сравнению показателей эффективности алгоритмов машинного обучения на несбалансированных текстовых корпусах при помощи метода синтетического генерирования данных ADASYN и без него. Работа проведена на несбалансированном корпусе, состоящем из 5211 новостных текстов, сформированных методом кластерной выборки за один год. Разметка корпуса произведена по показателям тональности текстов по категориям: нейтральная, положительная и негативная, при значительном преобладании статей нейтральной тональности.
Существует множество широко используемых методов для преодоления проблемы дисбаланса данных. Часто, при работе с несбалансированными данными итоговая точность дает приемлемые результаты, но другие показатели эффективности очень низки. Такие противоречивые результаты часто имеют место, когда речь идет о глубоком анализе текста при исследовании социальных или медицинских явлений. В данной работе на примере анализа несбалансированного текстового корпуса методами К-ближайших соседей и Наивный Байес показано, как меняются распространенные метрики эффективности тех же самых алгоритмов машинного обучения при применении метода ADASYN.
Рассмотрен вопрос применения метода и его результаты при решении задачи классификации текстов. Сравнительные характеристики работы машинных алгоритмов до и после применения ADASYN предоставляют исследователю лучшее понимание того, на какие метрики эффективности машинного обучения лучше ориентироваться при работе с несбалансированными данными.
По итогам исследования представлены наблюдения и выводы авторов об особенностях применения метода и выдвинут ряд предложений по дальнейшим исследованиям в этой области для сравнения полученных результатов с эффектами от применения других методов.
Литература
[2] Fu G.H., Xu F., Zhang B.Y., Yi L.Zh. Stable variable selection of class-imbalanced data with precision-recall criterion. Chemometrics and Intelligent Laboratory Systems. 2017; 171:241-250. (In Eng.) DOI: 10.1016/j.chemolab.2017.10.015
[3] Zhang X., Wang D., Zhou Y., Chen H., Cheng F., Liu M. Kernel modified optimal margin distribution machine for imbalanced data classification. Pattern Recognition Letters. 2019; 125:325-332. (In Eng.) DOI: 10.1016/j.patrec.2019.05.005
[4] Haixiang G., Yijing L., Shang J., Mingyun G., Yuanyue H., Bing G. Learning from class-imbalanced data: Review of methods and applications. Expert Systems with Applications. 2017; 73:220-239. (In Eng.) DOI: 10.1016/j.eswa.2016.12.035
[5] Zhang S. Cost-Sensitive KNN Classification. Neurocomputing. 2019. (In Eng.) DOI: 10.1016/j.neucom.2018.11.101
[6] Zhang Y.C., Sakhanenko L. The naive Bayes classifier for functional data. Statistics & Probability Letters. 2019; 152:137-146. (In Eng.) DOI: 10.1016/j.spl.2019.04.017
[7] Abraham B., Nair M.S. Computer-aided diagnosis of clinically significant prostate cancer from MRI images using sparse autoencoder and random forest classifier. Biocybernetics and Biomedical Engineering. 2018; 38(3):733-744. (In Eng.) DOI: 10.1016/j.bbe.2018.06.009
[8] Feeney M. What Can Text Mining Reveal about the Use of Newspapers in Research? IFLA International News Media Conference “Collecting, Preserving, and Transforming the News – for Research and the Public” 27-28 April 2017. Landsbókasafn Íslands-Háskólabókasafn (The National and University Library of Iceland), Reykjavik, Iceland, 2017. Available at: https://www.ifla.org/files/assets/newspapers/2017_Iceland/2017-feeney-en.pdf (accessed 10.04.2019). (In Eng.)
[9] Kim D., Seo D., Cho S., Kang P. Multi-co-training for document classification using various document representations: TF-IDF, LDA, and Doc2Vec. Information Sciences. 2019; 477:15-29. (In Eng.) DOI: 10.1016/j.ins.2018.10.006
[10] Manning C.D., Schutze H. Foundations of Statistical Natural Language Processing. MIT Press, 2000. 620 p. (In Eng.)
[11] Gao J., Zhang J. Clustered SVD strategies in latent semantic indexing. Information Processing & Management. 2005; 41(5):1051-1063. (In Eng.) DOI: 10.1016/j.ipm.2004.10.005
[12] He H., & Garcia E.A. Learning from Imbalanced Data. IEEE Transactions on Knowledge and Data Engineering. 2009; 21(9):1263-1284. (In Eng.) DOI: 10.1109/tkde.2008.239
[13] Visa S. & Ramsay B., Ralescu A., & Knaap E. Confusion Matrix-based Feature Selection. CEUR Workshop Proceedings. 2011; 710:120-127. Available at: http://ceur-ws.org/Vol-710/paper37.pdf (accessed 10.04.2019). (In Eng.)
[14] Prasath S., Arafat A.A.H., Lasassmeh O., & Hassanat A. Distance and Similarity Measures Effect on the Performance of K-Nearest Neighbor Classifier - A Review. CoRR. 2017; abs/1708.04321. Available at: http://arxiv.org/abs/1708.04321 (accessed 10.04.2019). (In Eng.)
[15] Chomboon K., Chujai P., Teerarassammee P., Kerdprasop K., & Kerdprasop N. An Empirical Study of Distance Metrics for k-Nearest Neighbor Algorithm. Proceedings of the 3rd International Conference on Industrial Application Engineering 2015. The Institute of Industrial Applications Engineers, Japan, 2015; p. 280-285. (In Eng.) DOI: 10.12792/iciae2015.051
[16] Picek S., Heuser A., Jovic A., Bhasin S., Regazzoni F. The Curse of Class Imbalance and Conflicting Metrics with Machine Learning for Side-channel Evaluations. IACR Transactions on Cryptographic Hardware and Embedded Systems. 2018; 2019(1):209-237. (In Eng.) DOI: 10.13154/tches.v2019.i1.209-237
[17] Ah-Pine J., Soriano-Morales E.P. A Study of Synthetic Oversampling for Twitter Imbalanced Sentiment Analysis. Workshop on Interactions between Data Mining and Natural Language Processing (DMNLP 2016), Sep 2016, Riva del Garda, Italy, 2016. ffhal-01504684f. Available at: https://hal.archives-ouvertes.fr/hal-01504684 (accessed 10.04.2019). (In Eng.)
[18] Boughorbel S., Jarray F., El-Anbari M. Optimal classifier for imbalanced data using Matthews Correlation Coefficient metric. PLoS ONE. 2017; 12(6):e0177678. (In Eng.) DOI: 10.1371/journal.pone.0177678.
[19] Maldonado S., Lopez J., Vairetti C. An alternative SMOTE oversampling strategy for high-dimensional datasets. Applied Soft Computing. 2019; 76:380-389. (In Eng.) DOI: 10.1016/j.asoc.2018.12.024
[20] Chawla N., Japkowicz N., & Kotcz A. Editorial: Special Issue on Learning from Imbalanced Data Sets. ACM SIGKDD Explorations Newsletter - Special issue on learning from imbalanced datasets. 2004; 6(1):1-6. (In Eng.) DOI: 10.1145/1007730.1007733
[21] Chawla N.V., Lazarevic A., Hall L.O., Bowyer K.W. SMOTEBoost: Improving Prediction of the Minority Class in Boosting. In: Lavrač N., Gamberger D., Todorovski L., Blockeel H. (eds). Knowledge Discovery in Databases: PKDD 2003. PKDD 2003. Lecture Notes in Computer Science. Springer, Berlin, Heidelberg, 2003; 2838:107-119. (In Eng.) DOI: 10.1007/978-3-540-39804-2_12
[22] Guo H., Viktor H.L. Learning from Imbalanced Data Sets with Boosting and Data Generation: the DataBoost-IM Approach. ACM SIGKDD Explorations Newsletter - Special issue on learning from imbalanced datasets. 2004; 6(1):30-39. (In Eng.) DOI: 10.1145/1007730.1007736
[23] Chawla N.V., Bowyer K.W., Hall L.O., Kegelmeyer W.P. SMOTE: Synthetic Minority Oversampling Technique. Journal of Artificial Intelligence Research. 2002; 16: 321-357. (In Eng.) DOI: 10.1613/jair.953
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.