МЕТОДЫ АВТОМАТИЧЕСКОГО АННОТИРОВАНИЯ И ВЫДЕЛЕНИЯ КЛЮЧЕВЫХ СЛОВ В ЗАДАЧАХ ОБНАРУЖЕНИЯ ЭКСТРЕМИСТКОЙ ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ

Игорь Валерьевич Машечкин; Михаил Игоревич Петровский; Ирина Игоревна Поспелова; Дмитрий Владимирович Царёв

Игорь Валерьевич Машечкин Московский государственный университет имени М.В. Ломоносова
Михаил Игоревич Петровский Московский государственный университет имени М.В. Ломоносова
Ирина Игоревна Поспелова Московский государственный университет имени М.В. Ломоносова
Дмитрий Владимирович Царёв Московский государственный университет имени М.В. Ломоносова

Аннотация

В настоящее время увеличивается число и растет ущерб от террористических атак, осуществляемых как террористами одиночками под воздействием пропаганды и экстремистской идеологии, так и организованными террористическими сообществами, имеющими сетевую, слабо связную структуру. Основным средством обмена информацией, рекрутинга и пропаганды для таких структур является сеть Интернет, а именно веб ресурсы, социальные сети и электронная почта. В связи с этим возникает задача обнаружения, выявления тематик общения, связей, а также мониторинга поведения и прогнозирования угроз, исходящих от отдельных пользователей, групп и сетевых сообществ, порождающих и распространяющих террористическую и экстремистскую информацию в Интернете. Настоящая работа посвящена исследованию и разработке методов машинного обучения, направленных на решение задач обнаружения потенциально опасной информации в сети Интернет. Предложен метод автоматического аннотирования и выявления ключевых слов для поиска информации экстремистского содержания в потоках текстовых сообщений. Экспериментально показана применимость и эффективность предложенного метода на эталонном наборе данных, собранном в рамках проекта Dark Web.

Сведения об авторах

Игорь Валерьевич Машечкин, Московский государственный университет имени М.В. Ломоносова

доктор физико-математических наук, профессор кафедры автоматизации систем вычислительных комплексов, заведующий лабораторией Технологий программирования факультета вычислительной математики и кибернетики

Михаил Игоревич Петровский, Московский государственный университет имени М.В. Ломоносова

кандидат физико-математических наук, доцент кафедры автоматизации систем вычислительных комплексов факультета вычислительной математики и кибернетики

Ирина Игоревна Поспелова, Московский государственный университет имени М.В. Ломоносова

кандидат физико-математических наук, доцент кафедры Исследования операция факультета вычислительной математики и кибернетики

Дмитрий Владимирович Царёв, Московский государственный университет имени М.В. Ломоносова

младший научный сотрудник лаборатории Технологий программирования факультета вычислительной математики и кибернетики

Литература

1. Swati Agarwal, Ashish Sureka Applying Social Media Intelligence for Predicting and Identifying On-line Radicalization and Civil Unrest Oriented Threats arXiv:1511.06858 [cs.CY].
2. Last, Mark, Markov, Alex, Kandel, Abraham, Chen, Hsinchun, Yang, Christopher C. Multi-lingual Detection of Web Terrorist Content. Intelligence and Security Informatics: Techniques and Applications, 2008, Springer Berlin Heidelberg, Berlin, Heidelberg, http://dx.doi.org/10.1007/978-3-540-69209-6_5 P 79-96.
3. Enghin Omer Using machine learning to identify jihadist messages on Twitter http://uu.diva-portal.org/smash/get/diva2:846343/FULLTEXT01.pdf.
4. Ashish Sureka; Swati Agarwal Learning to Classify Hate and Extremism Promoting Tweets Intelligence and Security Informatics Conference (JISIC), 2014 IEEE Joint Year: 2014 Pages: 320 - 320, DOI: 10.1109/JISIC.2014.65.
5. Emilio Ferrara, Wen-Qiang Wang, Onur Varol, Alessandro Flammini, Aram Galstyan (2016) Predicting online extremism, content adopters, and interaction reciprocity arXiv:1605.00659 [cs.SI].
6. Elovici, Y., Shapira, B., Last, M., Zaafrany, O., Friedman, M., Schneider, M. and Kandel, A. (2010), Detection of access to terror-related Web sites using an Advanced Terror Detection System (ATDS). J. Am. Soc. Inf. Sci., 61: 405–418. doi:10.1002/asi.21249.
7. Ibrahim Toure; Aryya Gangopadhyay Analyzing terror attacks using latent semantic indexing , 2013 IEEE International Conference on Technologies for Homeland Security (HST) Year: 2013 Pages: 334 - 337, DOI: 10.1109/THS.2013.6699024
8. http://www.start.umd.edu/start/.
9. Blei, David M.; Ng, Andrew Y.; Jordan, Michael I (January 2003). Lafferty, John, ed. "Latent Dirichlet Allocation". Journal of Machine Learning Research. 3 (4–5): pp. 993–1022. doi:10.1162/jmlr.2003.3.4-5.993.
10. Yulei Zhang, Shuo Zeng, Li Fan, Yan Dang, Catherine A. Larson, and Hsinchun Chen. 2009. Dark web forums portal: searching and analyzing Jihadist forums. In Proceedings of the 2009 IEEE international conference on Intelligence and security informatics (ISI'09). IEEE Press, Piscataway, NJ, USA, 71-76.
11. Ahmed Abbasi and Hsinchun Chen Applying authorship analysis to extremist-group web forum messages, IEEE Intelligent Systems, 2005, V.20, pp. 67—75.
12. Sebastián A. Ríos and Ricardo Muñoz. 2012. Dark Web portal overlapping community detection based on topic models. In Proceedings of the ACM SIGKDD Workshop on Intelligence and Security Informatics (ISI-KDD '12). ACM, New York, NY, USA, , Article 2 , 7 pages. DOI=http://dx.doi.org/10.1145/2331791.2331793.
13. Tope Omitola, Sebastián A. Ríos, John G. Breslin: Social Semantic Web Mining. Synthesis Lectures on the Semantic Web: Theory and Technology, Morgan & Claypool Publishers 2015.
14. J. R. Scanlon and M. S. Gerber, “Automatic detection of cyber-recruitment by violent extremists,” Security Informatics, vol. 3, no. 1, pp. 1–10, 2014. doi:10.1186/s13388-014-0005-5.
15. Jacob R. Scanlon, Matthew S. Gerber: Forecasting Violent Extremist Cyber Recruitment. IEEE Trans. Information Forensics and Security 10(11): 2461-2470 (2015).
16. Gaston L'Huillier, Hector Alvarez, Sebastián A. Ríos, and Felipe Aguilera. 2011. Topic-based social network analysis for virtual communities of interests in the dark web. SIGKDD Explor. Newsl. 12, 2 (March 2011), 66-73. DOI=http://dx.doi.org/10.1145/1964897.1964917.
17. Li Yang and Feiqiong Liu and Joseph Migga Kizza and Raimund K. Ege Discovering Topics from Dark Websites IEEE Symposium on Computational Intelligence in Cyber Security, 2009. CICS '09, pp. 175 - 179, DOI: 10.1109/CICYBS.2009.4925106.
18. Tsarev D.V., Petrovskiy M.I., Mashechkin I.V., Popov D.S. Automatic text summarization using latent semantic analysis // Programming and Computer Software. – 2011. – Т. 37. – №. 6. – С. 299-305.
19. Машечкин И. В., Петровский М. И., Царёв Д. В. Методы вычисления релевантности фрагментов текста на основе тематических моделей в задаче автоматического аннотирования // Вычислительные методы и программирование. – 2013. – Т. 14. – №. 1. – С. 91-102.
20. Manning C. D. et al. Introduction to information retrieval. – Cambridge: Cambridge university press, 2008. – Т. 1. – С. 496.
21. Tsarev D.V., Petrovskiy M.I., Mashechkin I.V. Using NMF-based text summarization to improve supervised and unsupervised classification // Hybrid Intelligent Systems (HIS), 2011 11th International Conference on. – IEEE, 2011. – С. 185-189.