Комплексный сетевой алгоритм формирования глоссария контекстно-близких прогностических терминов
Аннотация
Сбор словаря терминов, составляющего ознакомительное проявление концепций предметной области, является одним из первых шагов к моделированию определенной области знаний. В условиях конвергентных тенденций «стыковых» междисциплинарных связей при развитии сложных систем приоритетное значение приобретает сфера моделирования информационно-коммуникационных технологий (ИКТ) и компьютерных наук. При формировании глоссария прогностических терминов применен комплексный алгоритмический подход, согласно которому интегрирован ряд условий, объединяющих возможности сетевого (графового) и семантического подходов: автоматическая генерация графов, учет ранжирования при оценке результатов поиска, контекстно-семантическая фильтрация. В результате разработан комплексный алгоритм и программный код, позволяющий формировать на базе сетевого сервиса «Википедия» глоссарий контекстно-близких специализированных терминов и тематических словосочетаний от изначально заданных терминов с ранжированием по средней арифметической оценке двух алгоритмов - PageRank и HITS. Визуализация работы алгоритма представлена на примере генерации графа от первичного термина «Quantum computing». Проанализированы данные, обосновывающие объективность представленного подхода к оценке веса термина, а также демонстрирующие результат работы алгоритма на примере расширения контекста прогностических терминов в рамках категории «Computing engineering». В качестве финальной демонстрации приведён вывод фрагмента глоссария, структурированного по категориям прогностических ИКТ. Результаты исследования будут использованы как базовый корпус знаний предметной области, необходимый для формирования обоснованных формул запросов при последующем анализе тематических статей, размещенных в библиографических базах данных и внешних сетевых ресурсах.
Литература
2. Lanza C., Hazem A., Daille B. Towards Automatic Thesaurus Construction and Enrichment. In: Proceedings of the 6th International Workshop on Computational Terminology (COMPUTERM 2020). Language Resources and Evaluation Conference (LREC 2020). Marseille: European Language Resources Association; 2020. p. 62-71. Available at: https://aclanthology.org/2020.computerm-1.9.pdf (accessed 23.08.2023).
3. Koutsomitropoulos D.A., Andriopoulos A.D. Thesaurus-based word embeddings for automated biomedical literature classification. Neural Computing and Applications. 2022;34(2):937-950. https://doi.org/10.1007/s00521-021-06053-z
4. Vakaliuk T., Chernysh O., Babenko V. The Algorithm of Electronic Multilingual Terminological Dictionary Compilation. In: Proceedings of the 1st Symposium on Advances in Educational Technology. Vol. 2: AET. SciTePress; 2022. p. 323-331. https://doi.org/10.5220/0010931400003364
5. Popov .R., Kramarov S. . The Study of Information Dissemination in Networks Arranged from a Set of Forecasting Terms. Proceedings in Cybernetics. 2022;(1):38-45. (In Russ., abstract in Eng.) https://doi.org/10.34822/1999-7604-2022-1-38-45
6. Kozakov L., Park Y., Fin T., Drissi Y., Doganata Y., Cofino T. Glossary extraction and utilization in the information search and delivery system for IBM Technical Support. IBM Systems Journal. 2004;43(3):546-563. https://doi.org/10.1147/sj.433.0546
7. Velardi P., Navigli R., D'Amadio P. Mining the Web to Create Specialized Glossaries. IEEE Intelligent Systems. 2008;23(5):18-25. https://doi.org/10.1109/MIS.2008.88
8. Dogra V., Verma S., Kavita, Chatterjee P., Shafi J., Choi J., Ijaz M.F. A Complete Process of Text Classification System Using State-of-the-Art NLP Models. Computational Intelligence and Neuroscience. 2022:1883698. https://doi.org/10.1155/2022/1883698
9. Soliman A. An unsupervised linguistic-based model for automatic glossary term extraction from a single PDF textbook. Education and Information Technologies. 2023;28:16089-16125. https://doi.org/10.1007/s10639-023-11818-1
10. Van S. Semanticheskij i strukturnyj analiz tekstov v seti Internet [Semantic and structural analysis of texts on the Internet]. E-Scio. 2020;(4):51-60. (In Russ., abstract in Eng.) EDN: PBIGEH
11. Fergnani A., Jackson M. Extracting scenario archetypes: A quantitative text analysis of documents about the future. Futures & Foresight Science. 2019;1(2):e17. https://doi.org/10.1002/ffo2.17
12. Altınel B., Can Ganiz M. Semantic text classification: A survey of past and recent advances. Information Processing & Management. 2018;54(6):1129-1153. https://doi.org/10.1016/j.ipm.2018.08.001
13. Jia C., Carson M.B., Wang X., Yu J. Concept decompositions for short text clustering by identifying word communities. Pattern Recognition. 2018;76:691-703. https://doi.org/10.1016/j.patcog.2017.09.045
14. Kogay V.N., Pak V.S. Algoritmicheskaya model' komp'yuternoj sistemy vydeleniya klyuchevyh slov iz teksta na baze ontologij [Algorithmic model of computerized system of keywords extracting from text based on ontology]. Problemy sovremennoj nauki i obrazovanija = Problems of modern science and education. 2016;(16):33-40. (In Russ., abstract in Eng.) EDN: WFGOIT
15. Gordon M., Lindsay R., Fan W. Literature-Based Discovery on the World Wide Web. ACM Transactions on Internet Technology. 2002;2(4):261-275. https://doi.org/10.1145/604596.604597
16. Veremyev A., Semenov A., Pasiliao E., Boginski V. Graph-based exploration and clustering analysis of semantic spaces. Applied Network Science. 2019;(4):109. https://doi.org/10.1007/s41109-019-0228-y
17. Cameron D., Kavuluru R., Rindflesch Th., Sheth A., Thirunarayan K., Bodenreider O. Context-Driven Automatic Subgraph Creation for Literature-Based Discovery. Journal of Biomedical Informatics. 2015;54:141-157. https://doi.org/10.1016/j.jbi.2015.01.014
18. Brin S., Page L. The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems. 1998;30(1-7):107-117. https://doi.org/10.1016/S0169-7552(98)00110-X
19. Kleinberg J.M. Authoritative sources in a hyperlinked environment. Journal of the ACM. 1999;46(5):604-632. https://doi.org/10.1145/324133.324140
20. Patchmuthu R.K., Goh K.L.A., Singh A.K. Application of Markov Chain in the PageRank Algorithm. Pertanika Journal of Science & Technology. 2013;21(2):541-554. Available at: http://www.pertanika.upm.edu.my/pjst/browse/regular-issue?article=JST-0397-2012 (accessed 23.08.2023).
21. Li H. The PageRank Algorithm. In: Machine Learning Methods. Singapore: Springer; 2024. p. 473-492. https://doi.org/10.1007/978-981-99-3917-6_21
22. Li W., Zhao J. TextRank Algorithm by Exploiting Wikipedia for Short Text Keywords Extraction. In: 2016 3rd International Conference on Information Science and Control Engineering (ICISCE). Beijing, China: IEEE Computer Society; 2016. p. 683-686. https://doi.org/10.1109/ICISCE.2016.151
23. Pech F., Martinez A., Estrada H., Hernandez Y. Semantic Annotation of Unstructured Documents Using Concepts Similarity. Scientific Programming. 2017;2017(1):7831897. https://doi.org/10.1155/2017/7831897
24. Heist N., Heiko P. Entity Extraction from Wikipedia List Pages. The Semantic Web. 2020;(12123):327-342. https://doi.org/10.1007/978-3-030-49461-2_19
25. Kramarov S.O., Popov O.R., Dzhariev I.E., Petrov E.A. Dynamics of link formation in networks structured on the basis of predictive terms. Russian Technological Journal. 2023;11(3):17-29. https://doi.org/10.32362/2500-316X-2023-11-3-17-29
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.