МОДЕЛЬ КЛАСТЕРИЗАЦИИ СЛАБОСТРУКТУРИРОВАННЫХ ТЕКСТОВЫХ ДАННЫХ

  • Константин Константинович Отраднов Московский технологический университет (МИРЭА)
  • Дмитрий Олегович Жуков Московский технологический университет (МИРЭА)
  • Ольга Александровна Новикова Московский технологический университет (МИРЭА)

Аннотация

В статье предложена модель кластеризации коллекций новостных текстовых сообщений, а также соответствующий алгоритм кластеризации «bubble trap». Суть предлагаемого подхода заключается в разделения всего векторного пространства текстовых документов на оболочки смысловых кластеров с минимальными ограничениями на признаки отбора таким образом, что объем смыслового кластера и положение его центра остаются неизменными в процессе добавления в него новых векторов, а критерием соотнесения является заданная постоянная метрика точности.

Сведения об авторах

Константин Константинович Отраднов, Московский технологический университет (МИРЭА)

соискатель, старший преподаватель кафедры автоматизированных систем управления Института комплексной безопасности и специального приборостроения

Дмитрий Олегович Жуков, Московский технологический университет (МИРЭА)

доктор технических наук, профессор, заместитель директора по научной работе института комплексной безопасности и специального приборостроения

Ольга Александровна Новикова, Московский технологический университет (МИРЭА)

соискатель, заместитель заведующего аспирантурой

Литература

1. Feldman R., Sanger J. The Text Mining Handbok. Cambridge: Cambridge University Press, 2007. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. Introduction to Information Retrieval. Cambridge University Press, 2008, 544 p.
2. Turney, P. D. The latent relation mapping engine: Algorithm and experiments. // Journal of Artificial Intelligence Research, 33, 2008, P. 615–655.
3. Kumar, A., Kumar, D., Jarial, S.K. A novel hybrid K-means and artificial bee colony algorithm approach for data clustering. // Decision Science Letters . – 2018, Vol. 7, Issue 1, P. 65-76.
4. Abualigah, L.M., Khader, A.T., Al-Betar, M.A., Alomari, O.A. Text feature selection with a robust weight scheme and dynamic dimension reduction to text document clustering. / Expert Systems with Applications. – 2017, 84, P. 24-36.
5. Kanimozhi, K.V., Venkatesan, M. A novel map-reduce based augmented clustering algorithm for big text datasets. // Advances in Intelligent Systems and Computing. – 2018, Vol. 542, P. 427-436.
6. Jenhani, F., Gouider, M.S., Said, L.B. Social stream clustering to improve events extraction. // Smart Innovation, Systems and Technologies. – 2018, Vol. 73, P. 319-329.
7. Jenhani, F., Gouider, M.S., Ben Said, L.A hybrid approach for drug abuse events extraction from Twitter (2016). 20Th International Conference on Knowledge-Based and Intelligent Information and Engineering Systems (ICKIIES 2016), York, United Kingdom. -2016.
8. Ailem, M., Role, F., Nadif, M. Sparse Poisson Latent Block Model for Document Clustering. / IEEE Transactions on Knowledge and Data Engineering. – 2017, №29 (7), P. 1563-1576.
9. Li, W., Joo, J., Qi, H., Zhu, S.-C. Joint Image-Text News Topic Detection and Tracking by Multimodal Topic And-Or Graph. // IEEE Transactions on Multimedia. – 2017, Vol. 19, Issue 2, 19(2), P. 367-381.
10. Bafna, P., Pramod, D., Vaidya, A. Document clustering: TF-IDF approach. // International Conference on Electrical, Electronics, and Optimization Techniques, ICEEOT 2016. – 2016, P. 61-66.
11. Lamari, Y., Slaoui, S.C. Parallel document clustering using iterative mapreduce. 2016 International Conference on Big Data and Advanced Wireless Technologies, BDAW 2016; Blagoevgrad; Bulgaria; 10 November 2016 to 11 November 2016. // ACM International Conference Proceeding Series.
12. Al-Fath, A.M.U., Saleh, W.K.R., Sa'Adah, S. Implementation of MCL algorithm in clustering digital news with graph representation. // 4th International Conference on Information and Communication Technology, ICoICT 2016; Bandung; Indonesia; 25 May 2016 до 27 May 2016.
13. Patil, H., Thakur, R.S. Document clustering: A summarized survey (Book Chapter) // Pattern and Data Analysis in Healthcare Settings. – 22 July 2016, P. 264-281.
14. Le, T.M.V., Lauw, H.W. Semantic visualization with neighborhood graph regularization. / Journal of Artificial Intelligence Research. – 2016, Vol. 55, P. 1091-1133.
15. Rahmawati, D., Putri Saptawati, G.A., Widyani, Y. Document clustering using sequential pattern (SP): Maximal frequent sequences (MFS) as SP representation. // Proceedings of 2015 International Conference on Data and Software Engineering, ICODSE 2015. – 2016, P. 98-102.
16. Conrad, J.G., Bender, M. Semi-supervised events clustering in news retrieval. // CEUR Workshop Proceedings. – 2016, P. 21-26.
17. Huang, G., He, J., Zhang, Y., (...), You, Y., Cao, J. Mining streams of short text for analysis of world-wide event evolutions. / World Wide Web . -2015, 18(5), P. 1201-1217.
18. O. A. Bezverhij, S. G. Samohvalova. Klasterizacija bol'shogo objoma tekstovyh poiskovyh zaprosov. // «Uchenye zametki TOGU». – 2016, Tom 7, № 3.
19. V. Potemkin, A. Ju. Borodashhenko. Algoritm dinamicheskoj klasterizacii soobshhenij sredstv massovoj informacii seti Internet po sjuzhetnym linijam. // «Human Progress». –2016, Tom 2, № 8.
20. Lesko, S.A., Zhukov, D.O Trends, self-similarity, and forecasting of news events in the information domain, its structure and director. Proceedings – 2015 IEEE International Conference on Big Data Intelligence and Computing, DataCom 2015, DOI: 10.1109/SmartCity.2015.178
21. D.O. Zhukov, S.A. Lesko. Stochastic self-organisation of poorly structured data and memory realisation in an information domain when designing news events forecasting models. The 2nd IEEE International Conference on Big Data Intelligence and Computing. 2016, August 8-12, Auckland, New Zealand, DOI: 10.1109/DASC-PICom-DataCom-CyberSciTec.2016.153
22. Sigov, A., Zhukov, D., Novikova, O. Modelling of memory realization processes and the implementation of information self-organization in forecasting the new's events using arrays of natural language texts. Proceeding the 1st International Scientific Conference Convergent Cognitive Information Technologies, Convergent 2016; Moscow; Russian Federation; 25 November 2016 through 26 November 2016; Code 125487, CEUR Workshop Proceedings Volume 1763, 2016, pp. 42-55.
Опубликована
2017-10-01
Как цитировать
ОТРАДНОВ, Константин Константинович; ЖУКОВ, Дмитрий Олегович; НОВИКОВА, Ольга Александровна. МОДЕЛЬ КЛАСТЕРИЗАЦИИ СЛАБОСТРУКТУРИРОВАННЫХ ТЕКСТОВЫХ ДАННЫХ. Современные информационные технологии и ИТ-образование, [S.l.], v. 13, n. 3, p. 100-115, oct. 2017. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/295>. Дата доступа: 22 dec. 2024 doi: https://doi.org/10.25559/SITITO.2017.3.439.