Метод атрибуции автора с использованием Word Embeddings

  • Conrad Kenyon Simon Российский университет дружбы народов http://orcid.org/0000-0002-1309-1867
  • Ilya Vladimirovich Sochenkov Федеральный исследовательский центр "Информатика и управление" РАН; Московский государственный университет имени М.В. Ломоносова http://orcid.org/0000-0003-3113-3765

Аннотация

В этой статье рассматривается методология определения автора текста с помощью анализа стиля письма и определения особенностей, характерных для конкретного автора. Данный метод исследует возможности идентификации источников анализируемых документов с использованием модели дистрибутивной семантики для формирования набора запросов для поисковой машины. Используемый набор данных является совместной задачей PAN @ CLEF 2019 в Кросс-доменной Атрибуции Авторских прав на таких языках как английский, французский, итальянский и испанский, каждый из которых имеет 5 задач, что в совокупности ставит 20 задач. Общая задача, объединяющая эти 20 задач, связана с программированием на естественном языке, в рамках которого данный процесс осуществляется через атрибуцию пользователя, которая может быть использована для идентификации работы автора. Приведенный здесь метод исследует выявление источников неизвестного документа, используя модель дистрибутивной семантики для формирования набора запросов к поисковой системе. Метод, используемый для выявления неизвестных авторов, базируется на дистрибутивной семантике и на следующей гипотезе: лингвистические единицы, которые присутствуют в сходных контекстах, имеют сходное семантическое значение. Анализируемые лингвистические единицы рассчитываются, исходя из близости лингвистических элементов с точки зрения семантической нагрузки, основанной на их распределении в больших текстовых отрывках.

Сведения об авторах

Conrad Kenyon Simon, Российский университет дружбы народов

аспирант кафедры информационных технологий, факультет физико-математических и естественных наук

Ilya Vladimirovich Sochenkov, Федеральный исследовательский центр "Информатика и управление" РАН; Московский государственный университет имени М.В. Ломоносова

заведующий отделом интеллектуальных технологий и систем, Институт системного анализа РАН; руководитель направления по разработке методов искусственного интеллекта для анализа больших массивов текстовой информации в Центре хранения и анализа больших данных, кандидат физико-математических наук

Литература

[1] Rieger B.B. On Distributed Representations in Word Semantics. ICSI Technical Report TR-91-012. Berkeley, 1991. 29 pp. Available at: http://www.icsi.berkeley.edu/ftp/global/pub/techreports/1991/tr-91-012.pdf (accessed 30.07.2019). (In Eng.)
[2] Salton G., Wong A., Yang C.S. A vector space model for automatic indexing. Communications of the ACM. 1975; 18(11):613-620. (In Eng.) DOI: 10.1145/361219.361220
[3] Bondarchuk D.V. Vector space model of knowledge representation based on semantic relatedness. Bulletin of the South Ural State University. Series "Computational Mathematics and Software Engineering". 2017; 6(3):73-83. (In Russ., abstract in Eng.) DOI: 10.14529/cmse170305
[4] Neal T., Sundararajan K., Fatima A., Yan Y., Xiang Y., Woodard D. Surveying Stylometry Techniques and Applications. ACM Computing Surveys. 2017; 50(6):86. 36 p. (In Eng.) DOI: 10.1145/3132039
[5] Stamatatos E. A Survey of Modern Authorship Attribution Methods. Journal of the American Society for Information Science and Technology. 2009; 60(3):538-556. (In Eng.) DOI: 10.1002/asi.21001
[6] Juola P. An overview of the traditional authorship attribution subtask. In: P. Forner, J. Karlgren, C. Womser-Hacker (Eds.) CLEF 2012 Evaluation Labs and Workshop - Working Notes Papers, 17-20 September, Rome, Italy, 2012. (In Eng.)
[7] Argamon S., Juola P. Overview of the international authorship identification competition at PAN-2011. In: V. Petras, P. Forner, P. Clough (Eds.) Notebook Papers of CLEF 2011 Labs and Workshops, 19-22 September, Amsterdam, Netherlands, 2011. (In Eng.)
[8] Sapkota U., Bethard S., Montes M., Solorio T. Not all character n-grams are created equal: A study in authorship attribution. In: Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics, Denver, Colorado, 2015, pp. 93-102. (In Eng.) DOI: 10.3115/v1/N15-1010
[9] Overdorf R., Greenstadt R. Blogs, Twitter Feeds, and Reddit Comments: Cross-domain Authorship Attribution. Proceedings on Privacy Enhancing Technologies. 2016; 2016(3):155-171. (In Eng.) DOI: 10.1515/popets-2016-0021
[10] Sapkota U., Solorio T., Montes-y-Gómez M., Bethard S., Rosso P. Cross-topic authorship attribution: will out-of-topic data help? In: Proceedings of the 25th International Conference on Computational Linguistics (COLING’14). 2014, pp. 1228-1237. Available at: https://www.aclweb.org/anthology/C14-1116.pdf (accessed 30.07.2019). (In Eng.)
[11] Stamatatos E. On the Robustness of Authorship Attribution Based on CharacterN-gram Features. Journal of Law and Policy. 2013; 21(2):421-439. (In Eng.)
[12] Sapkota U., Solorio T., Montes-y-Gómez M., Bethard S. Domain Adaptation for Authorship Attribution: Improved Structural Correspondence Learning. In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, Berlin, Germany, 2016; 1: 2226-2235. (In Eng.) DOI: 10.18653/v1/P16-1210
[13] Stamatatos E. Authorship attribution using text distortion. In: Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Valencia, Spain, April 3-7, 2017. Association for Computational Linguistics, 2017; 1:1138-1149. Available at: https://www.aclweb.org/anthology/E17-1107.pdf (accessed 30.07.2019). (In Eng.)
[14] Koppel, M., Schler, J., Bonchek-Dokow, E.: Measuring differentiability: Unmasking pseudonymous authors. Journal of Machine Learning Research. 2007; 8:1261-1276. Available at: http://www.jmlr.org/papers/volume8/koppel07a/koppel07a.pdf (accessed 30.07.2019). (In Eng.)
[15] Mikros G., Argiri E. Investigating Topic Influence in Authorship Attribution. In: B. Stein, M. Koppel, E. Stamatatos (Eds.) Proceedings of the SIGIR'07 International Workshop on Plagiarism Analysis, Authorship Identification, and Near-Duplicate Detection (PAN 07). Amsterdam, Netherlands, July 27, 2007. CEUR Workshop Proceedings. 2007; 276:5. Available at: http://ceur-ws.org/Vol-276/paper5.pdf (accessed 30.07.2019). (In Eng.)
[16] Rocha A. et al. Authorship Attribution for Social Media Forensics. IEEE Transactions on Information Forensics and Security. 2017; 12(1):5-33. (In Eng.) DOI: 10.1109/TIFS.2016.2603960
[17] Stamatatos E. Masking topic-related information to enhance authorship attribution. Journal of the Association for Information Science and Technology. 2018; 69(3):461-473. (In Eng.) DOI: 10.1002/asi.23968
[18] Kestemont M., Luyckx K., Daelemans W., Crombez T. Cross-Genre Authorship Verification Using Unmasking. English Studies. 2012; 93(3):340-356. (In Eng.) DOI: 10.1080/0013838X.2012.668793
[19] Bogdanova D., Lazaridou A. Cross-Language Authorship Attribution. In: N. Calzolari, K. Choukri, T. Declerck, H. Loftsson, B. Maegaard, J. Mariani, A. Moreno, J. Odijk, S. Piperidis (Eds.) Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'2014), European Language Resources Association, Reykjavik, Iceland, 2014, pp. 2015-2020. (In Eng.)
[20] Stamatatos E., Tschuggnall M., Verhoeven B., Daelemans W., Specht G., Stein B., Potthast M. Clustering by Authorship Within and Across Documents. In: K. Balog, L. Cappellato, N. Ferro, C. Macdonald (Eds.) Working Notes of CLEF 2016 - Conference and Labs of the Evaluation forum, Évora, Portugal, 5-8 September, 2016. Workshop Proceedings. 2016; 1609:691-715. Available at: http://ceur-ws.org/Vol-1609/16090691.pdf (accessed 30.07.2019). (In Eng.)
[21] Tschuggnall M., Stamatatos E., Verhoeven B., Daelemans W., Specht G., Stein B., Potthast M. Overview of the Author Identification Task at PAN-2017: Style Breach Detection and Author Clustering. In: L. Cappellato, N. Ferro, L. Goeuriot, T. Mandl (Eds.) Working Notes of CLEF 2017 - Conference and Labs of the Evaluation Forum, Dublin, Ireland, September 11-14, 2017. CEUR Workshop Proceedings. 2017; 1866. Available at: http://ceur-ws.org/Vol-1866/invited_paper_3.pdf (accessed 30.07.2019). (In Eng.)
[22] Al-Shaikh A., Sleit A. Evaluating IndexedDB performance on web browsers. In: 2017 8th International Conference on Information Technology (ICIT), Amman, 2017, pp. 488-494. (In Eng.) DOI: 10.1109/ICITECH.2017.8080047
[23] Young J.C., Rusli A. Review and Visualization of Facebook's FastText Pretrained Word Vector Model. In: 2019 International Conference on Engineering, Science, and Industrial Applications (ICESI), Tokyo, Japan, 2019, pp. 1-6. (In Eng.) DOI: 10.1109/ICESI.2019.8863015
[24] Huang Q., Mao J., Liu Y. An improved grid search algorithm of SVR parameters optimization. In: 2012 IEEE 14th International Conference on Communication Technology, Chengdu, 2012, pp. 1022-1026. (In Eng.) DOI: 10.1109/ICCT.2012.6511415
[25] Shawe-Taylor J., Cristianini N. Kernel Methods for Pattern Analysis. Cambridge University Press, 2004. (In Eng.)
[26] Fawcett T. An Introduction to ROC Analysis. Pattern Recognition Letters. 2006; 27(8):861-874. (In Eng.) DOI: 10.1016/j.patrec.2005.10.010
[27] Betz M.A., Gabriel K.R. Type IV Errors and Analysis of Simple Effects. Journal of Educational Statistics. 1978; 3(2):121-143. (In Eng.) DOI: 10.3102/10769986003002121
[28] Powers D.M.W. Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies. 2011; 2(1):37-63. Available at: https://bioinfopublication.org/files/articles/2_1_1_JMLT.pdf (accessed 30.07.2019). (In Eng.)
[29] Custódio J.E., Paraboni I. EACH-USP Ensemble cross-domain authorship attribution. In: L. Cappellato, N. Ferro, J.Y. Nie, L. Soulier (Eds.) Working Notes of CLEF 2018 - Conference and Labs of the Evaluation Forum. Avignon, France, September 10-14, 2018. CEUR Workshop Proceedings. 2018; 2125:76. Available at: http://ceur-ws.org/Vol-2125/paper_76.pdf (accessed 30.07.2019). (In Eng.)
[30] Pissanetzky S. Sparse Matrix Technology. Academic Press, 1984. 336 p. (In Eng.)
Опубликована
2019-09-30
Как цитировать
SIMON, Conrad Kenyon; SOCHENKOV, Ilya Vladimirovich. Метод атрибуции автора с использованием Word Embeddings. Современные информационные технологии и ИТ-образование, [S.l.], v. 15, n. 3, p. 572-578, sep. 2019. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/562>. Дата доступа: 23 apr. 2024 doi: https://doi.org/10.25559/SITITO.15.201903.572-578.
Раздел
Теоретические вопросы информатики, прикладной математики, компьютерных наук