МЕТОДЫ АВТОМАТИЧЕСКОГО АННОТИРОВАНИЯ И ВЫДЕЛЕНИЯ КЛЮЧЕВЫХ СЛОВ В ЗАДАЧАХ ОБНАРУЖЕНИЯ ЭКСТРЕМИСТКОЙ ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ
Аннотация
В настоящее время увеличивается число и растет ущерб от террористических атак, осуществляемых как террористами одиночками под воздействием пропаганды и экстремистской идеологии, так и организованными террористическими сообществами, имеющими сетевую, слабо связную структуру. Основным средством обмена информацией, рекрутинга и пропаганды для таких структур является сеть Интернет, а именно веб ресурсы, социальные сети и электронная почта. В связи с этим возникает задача обнаружения, выявления тематик общения, связей, а также мониторинга поведения и прогнозирования угроз, исходящих от отдельных пользователей, групп и сетевых сообществ, порождающих и распространяющих террористическую и экстремистскую информацию в Интернете. Настоящая работа посвящена исследованию и разработке методов машинного обучения, направленных на решение задач обнаружения потенциально опасной информации в сети Интернет. Предложен метод автоматического аннотирования и выявления ключевых слов для поиска информации экстремистского содержания в потоках текстовых сообщений. Экспериментально показана применимость и эффективность предложенного метода на эталонном наборе данных, собранном в рамках проекта Dark Web.
Литература
2. Last, Mark, Markov, Alex, Kandel, Abraham, Chen, Hsinchun, Yang, Christopher C. Multi-lingual Detection of Web Terrorist Content. Intelligence and Security Informatics: Techniques and Applications, 2008, Springer Berlin Heidelberg, Berlin, Heidelberg, http://dx.doi.org/10.1007/978-3-540-69209-6_5 P 79-96.
3. Enghin Omer Using machine learning to identify jihadist messages on Twitter http://uu.diva-portal.org/smash/get/diva2:846343/FULLTEXT01.pdf.
4. Ashish Sureka; Swati Agarwal Learning to Classify Hate and Extremism Promoting Tweets Intelligence and Security Informatics Conference (JISIC), 2014 IEEE Joint Year: 2014 Pages: 320 - 320, DOI: 10.1109/JISIC.2014.65.
5. Emilio Ferrara, Wen-Qiang Wang, Onur Varol, Alessandro Flammini, Aram Galstyan (2016) Predicting online extremism, content adopters, and interaction reciprocity arXiv:1605.00659 [cs.SI].
6. Elovici, Y., Shapira, B., Last, M., Zaafrany, O., Friedman, M., Schneider, M. and Kandel, A. (2010), Detection of access to terror-related Web sites using an Advanced Terror Detection System (ATDS). J. Am. Soc. Inf. Sci., 61: 405–418. doi:10.1002/asi.21249.
7. Ibrahim Toure; Aryya Gangopadhyay Analyzing terror attacks using latent semantic indexing , 2013 IEEE International Conference on Technologies for Homeland Security (HST) Year: 2013 Pages: 334 - 337, DOI: 10.1109/THS.2013.6699024
8. http://www.start.umd.edu/start/.
9. Blei, David M.; Ng, Andrew Y.; Jordan, Michael I (January 2003). Lafferty, John, ed. "Latent Dirichlet Allocation". Journal of Machine Learning Research. 3 (4–5): pp. 993–1022. doi:10.1162/jmlr.2003.3.4-5.993.
10. Yulei Zhang, Shuo Zeng, Li Fan, Yan Dang, Catherine A. Larson, and Hsinchun Chen. 2009. Dark web forums portal: searching and analyzing Jihadist forums. In Proceedings of the 2009 IEEE international conference on Intelligence and security informatics (ISI'09). IEEE Press, Piscataway, NJ, USA, 71-76.
11. Ahmed Abbasi and Hsinchun Chen Applying authorship analysis to extremist-group web forum messages, IEEE Intelligent Systems, 2005, V.20, pp. 67—75.
12. Sebastián A. Ríos and Ricardo Muñoz. 2012. Dark Web portal overlapping community detection based on topic models. In Proceedings of the ACM SIGKDD Workshop on Intelligence and Security Informatics (ISI-KDD '12). ACM, New York, NY, USA, , Article 2 , 7 pages. DOI=http://dx.doi.org/10.1145/2331791.2331793.
13. Tope Omitola, Sebastián A. Ríos, John G. Breslin: Social Semantic Web Mining. Synthesis Lectures on the Semantic Web: Theory and Technology, Morgan & Claypool Publishers 2015.
14. J. R. Scanlon and M. S. Gerber, “Automatic detection of cyber-recruitment by violent extremists,” Security Informatics, vol. 3, no. 1, pp. 1–10, 2014. doi:10.1186/s13388-014-0005-5.
15. Jacob R. Scanlon, Matthew S. Gerber: Forecasting Violent Extremist Cyber Recruitment. IEEE Trans. Information Forensics and Security 10(11): 2461-2470 (2015).
16. Gaston L'Huillier, Hector Alvarez, Sebastián A. Ríos, and Felipe Aguilera. 2011. Topic-based social network analysis for virtual communities of interests in the dark web. SIGKDD Explor. Newsl. 12, 2 (March 2011), 66-73. DOI=http://dx.doi.org/10.1145/1964897.1964917.
17. Li Yang and Feiqiong Liu and Joseph Migga Kizza and Raimund K. Ege Discovering Topics from Dark Websites IEEE Symposium on Computational Intelligence in Cyber Security, 2009. CICS '09, pp. 175 - 179, DOI: 10.1109/CICYBS.2009.4925106.
18. Tsarev D.V., Petrovskiy M.I., Mashechkin I.V., Popov D.S. Automatic text summarization using latent semantic analysis // Programming and Computer Software. – 2011. – Т. 37. – №. 6. – С. 299-305.
19. Машечкин И. В., Петровский М. И., Царёв Д. В. Методы вычисления релевантности фрагментов текста на основе тематических моделей в задаче автоматического аннотирования // Вычислительные методы и программирование. – 2013. – Т. 14. – №. 1. – С. 91-102.
20. Manning C. D. et al. Introduction to information retrieval. – Cambridge: Cambridge university press, 2008. – Т. 1. – С. 496.
21. Tsarev D.V., Petrovskiy M.I., Mashechkin I.V. Using NMF-based text summarization to improve supervised and unsupervised classification // Hybrid Intelligent Systems (HIS), 2011 11th International Conference on. – IEEE, 2011. – С. 185-189.
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.