МЕТОДЫ АВТОМАТИЧЕСКОГО АННОТИРОВАНИЯ И ВЫДЕЛЕНИЯ КЛЮЧЕВЫХ СЛОВ В ЗАДАЧАХ ОБНАРУЖЕНИЯ ЭКСТРЕМИСТКОЙ ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ
Abstract
В настоящее время увеличивается число и растет ущерб от террористических атак, осуществляемых как террористами одиночками под воздействием пропаганды и экстремистской идеологии, так и организованными террористическими сообществами, имеющими сетевую, слабо связную структуру. Основным средством обмена информацией, рекрутинга и пропаганды для таких структур является сеть Интернет, а именно веб ресурсы, социальные сети и электронная почта. В связи с этим возникает задача обнаружения, выявления тематик общения, связей, а также мониторинга поведения и прогнозирования угроз, исходящих от отдельных пользователей, групп и сетевых сообществ, порождающих и распространяющих террористическую и экстремистскую информацию в Интернете. Настоящая работа посвящена исследованию и разработке методов машинного обучения, направленных на решение задач обнаружения потенциально опасной информации в сети Интернет. Предложен метод автоматического аннотирования и выявления ключевых слов для поиска информации экстремистского содержания в потоках текстовых сообщений. Экспериментально показана применимость и эффективность предложенного метода на эталонном наборе данных, собранном в рамках проекта Dark Web.
References
2. Last, Mark, Markov, Alex, Kandel, Abraham, Chen, Hsinchun, Yang, Christopher C. Multi-lingual Detection of Web Terrorist Content. Intelligence and Security Informatics: Techniques and Applications, 2008, Springer Berlin Heidelberg, Berlin, Heidelberg, http://dx.doi.org/10.1007/978-3-540-69209-6_5 P 79-96.
3. Enghin Omer Using machine learning to identify jihadist messages on Twitter http://uu.diva-portal.org/smash/get/diva2:846343/FULLTEXT01.pdf.
4. Ashish Sureka; Swati Agarwal Learning to Classify Hate and Extremism Promoting Tweets Intelligence and Security Informatics Conference (JISIC), 2014 IEEE Joint Year: 2014 Pages: 320 - 320, DOI: 10.1109/JISIC.2014.65.
5. Emilio Ferrara, Wen-Qiang Wang, Onur Varol, Alessandro Flammini, Aram Galstyan (2016) Predicting online extremism, content adopters, and interaction reciprocity arXiv:1605.00659 [cs.SI].
6. Elovici, Y., Shapira, B., Last, M., Zaafrany, O., Friedman, M., Schneider, M. and Kandel, A. (2010), Detection of access to terror-related Web sites using an Advanced Terror Detection System (ATDS). J. Am. Soc. Inf. Sci., 61: 405–418. doi:10.1002/asi.21249.
7. Ibrahim Toure; Aryya Gangopadhyay Analyzing terror attacks using latent semantic indexing , 2013 IEEE International Conference on Technologies for Homeland Security (HST) Year: 2013 Pages: 334 - 337, DOI: 10.1109/THS.2013.6699024
8. http://www.start.umd.edu/start/.
9. Blei, David M.; Ng, Andrew Y.; Jordan, Michael I (January 2003). Lafferty, John, ed. "Latent Dirichlet Allocation". Journal of Machine Learning Research. 3 (4–5): pp. 993–1022. doi:10.1162/jmlr.2003.3.4-5.993.
10. Yulei Zhang, Shuo Zeng, Li Fan, Yan Dang, Catherine A. Larson, and Hsinchun Chen. 2009. Dark web forums portal: searching and analyzing Jihadist forums. In Proceedings of the 2009 IEEE international conference on Intelligence and security informatics (ISI'09). IEEE Press, Piscataway, NJ, USA, 71-76.
11. Ahmed Abbasi and Hsinchun Chen Applying authorship analysis to extremist-group web forum messages, IEEE Intelligent Systems, 2005, V.20, pp. 67—75.
12. Sebastián A. Ríos and Ricardo Muñoz. 2012. Dark Web portal overlapping community detection based on topic models. In Proceedings of the ACM SIGKDD Workshop on Intelligence and Security Informatics (ISI-KDD '12). ACM, New York, NY, USA, , Article 2 , 7 pages. DOI=http://dx.doi.org/10.1145/2331791.2331793.
13. Tope Omitola, Sebastián A. Ríos, John G. Breslin: Social Semantic Web Mining. Synthesis Lectures on the Semantic Web: Theory and Technology, Morgan & Claypool Publishers 2015.
14. J. R. Scanlon and M. S. Gerber, “Automatic detection of cyber-recruitment by violent extremists,” Security Informatics, vol. 3, no. 1, pp. 1–10, 2014. doi:10.1186/s13388-014-0005-5.
15. Jacob R. Scanlon, Matthew S. Gerber: Forecasting Violent Extremist Cyber Recruitment. IEEE Trans. Information Forensics and Security 10(11): 2461-2470 (2015).
16. Gaston L'Huillier, Hector Alvarez, Sebastián A. Ríos, and Felipe Aguilera. 2011. Topic-based social network analysis for virtual communities of interests in the dark web. SIGKDD Explor. Newsl. 12, 2 (March 2011), 66-73. DOI=http://dx.doi.org/10.1145/1964897.1964917.
17. Li Yang and Feiqiong Liu and Joseph Migga Kizza and Raimund K. Ege Discovering Topics from Dark Websites IEEE Symposium on Computational Intelligence in Cyber Security, 2009. CICS '09, pp. 175 - 179, DOI: 10.1109/CICYBS.2009.4925106.
18. Tsarev D.V., Petrovskiy M.I., Mashechkin I.V., Popov D.S. Automatic text summarization using latent semantic analysis // Programming and Computer Software. – 2011. – Т. 37. – №. 6. – С. 299-305.
19. Машечкин И. В., Петровский М. И., Царёв Д. В. Методы вычисления релевантности фрагментов текста на основе тематических моделей в задаче автоматического аннотирования // Вычислительные методы и программирование. – 2013. – Т. 14. – №. 1. – С. 91-102.
20. Manning C. D. et al. Introduction to information retrieval. – Cambridge: Cambridge university press, 2008. – Т. 1. – С. 496.
21. Tsarev D.V., Petrovskiy M.I., Mashechkin I.V. Using NMF-based text summarization to improve supervised and unsupervised classification // Hybrid Intelligent Systems (HIS), 2011 11th International Conference on. – IEEE, 2011. – С. 185-189.

This work is licensed under a Creative Commons Attribution 4.0 International License.
Publication policy of the journal is based on traditional ethical principles of the Russian scientific periodicals and is built in terms of ethical norms of editors and publishers work stated in Code of Conduct and Best Practice Guidelines for Journal Editors and Code of Conduct for Journal Publishers, developed by the Committee on Publication Ethics (COPE). In the course of publishing editorial board of the journal is led by international rules for copyright protection, statutory regulations of the Russian Federation as well as international standards of publishing.
Authors publishing articles in this journal agree to the following: They retain copyright and grant the journal right of first publication of the work, which is automatically licensed under the Creative Commons Attribution License (CC BY license). Users can use, reuse and build upon the material published in this journal provided that such uses are fully attributed.
