Методы структуризации знаний в онлайн-энциклопедиях
Аннотация
В настоящее время идет активная работа над онлайн-энциклопедиями на русском языке. Создается Большая российская энциклопедия, начато создание русскоязычной энциклопедии Рувики. В МГУ имени М.В. Ломоносова развивается проект "Ковчег знаний", который рассматривается как хранилище знаний различного формата, а также база для подготовки текстов статей для сетевого издания Большой Российской Энциклопедии. Современные электронные энциклопедии включают сотни тысяч статей, что требует использования специальных средств структуризации знаний для улучшения эффективности поиска информации и навигации пользователя по страницам энциклопедии.
Общепринятым способом навигации между страницами в онлайн-ресурсах являются гиперссылки. В Википедии, самой большой и известной интернет-энциклопедии, имеется развитая система (иерархия) категорий и подкатегорий, которые объединяют страницы Википедии в тематические группы. Похожая категоризация используется в русскоязычном ресурсе типа Википедии – Рувики. В Большой российской энциклопедии структуризация включает несколько десятков областей знаний, список категорий, а также ключевые слова.
В системе "Ковчег знаний" МГУ предполагается использование для структуризации знания онтологий, т.е. формализованных описаний предметных областей в виде системы классов и отношений между ними. Онтологии могут улучшить эффективность поиска информации, как для пользователей, так и для использования в автоматической обработке программными агентами.
В статье рассматриваются особенности каждого способа структуризации знаний. В частности, будут рассмотрены проблемы обширной системы категорий Википедии, создаваемой пользователями, которые отражают типичные сложности при формализации описания знаний. Проблемы использования онтологий для категоризации знаний будут рассмотрены на примере Викиданных.
Литература
2. Semenov A.L., Raevskij E.N., Bubnov A.S., Grishin I.Yu., Gulyaev A.V., Kobozeva I.M. Universal Encyclopedic Platform for Working with Knowledge. Modern Information Technologies and IT-Education. 2023;19(3):696-703. (In Russ., abstract in Eng.) https://doi.org/10.25559/SITITO.019.202303.696-703
3. Thornton K., McDonald D.W. Tagging Wikipedia: collaboratively creating a category system. In: Proceedings of the 2012 ACM International Conference on Supporting Group Work (GROUP '12). New York, NY, USA: Association for Computing Machinery; 2012. p. 219-228. https://doi.org/10.1145/2389176.2389210
4. Vrandečić D., Krötzsch M. Wikidata: a free collaborative knowledgebase. Communications of the ACM. 2014;57(10):78-85. https://doi.org/10.1145/2629489
5. Shenoy K., et al. A study of the quality of Wikidata. Journal of Web Semantics. 2022;72:100679. https://doi.org/10.1016/j.websem.2021.100679
6. Turki H., et al. Wikidata: A large-scale collaborative ontological medical database. Journal of biomedical informatics. 2019;99:103292. https://doi.org/10.1016/j.jbi.2019.103292
7. Faber P., León-Araúz P. From specialized knowledge frames to linguistically based ontologies. Applied Ontology. 2024;19(3):1-23. https://doi.org/10.3233/AO-230033
8. Hohenecker P., Lukasiewicz T. Ontology reasoning with deep neural networks. Journal of Artificial Intelligence Research. 2020;68:503-540. https://doi.org/10.1613/jair.1.11661
9. Baydaroğlu Ö., et al. A comprehensive review of ontologies in the hydrology towards guiding next generation artificial intelligence applications. Journal of Environmental Informatics. 2023;42(2):90-107. https://doi.org/10.3808/jei.202300500
10. Wróblewska A. et al. Methods and tools for ontology building, learning and integration application in the synat project. Intelligent tools for building a scientific information platform. 2012. p. 121-151. doi: https://doi.org/10.1007/978-3-642-24809-2_9
11. Loukachevitch N.V. Tezaurusy v zadachah informacionnogo poiska [Thesauri in information retrieval tasks]. Moscow: Moscow University Press; 2011. 512 p. (In Russ.) EDN: RBBMVR
12. Bates M.J. How to Use Controlled Vocabularies More Effectively in Online Searching. Online. 1988;12(6):45-56.
13. Davies J. Lightweight Ontologies. In: Poli R., Healy M., Kameas A. (eds.) Theory and Applications of Ontology: Computer Applications. Dordrecht: Springer; 2010. p. 197-229. https://doi.org/10.1007/978-90-481-8847-5_9
14. Janowicz K., et al. SOSA: A lightweight ontology for sensors, observations, samples, and actuators. Journal of Web Semantics. 2019;56:1-10. https://doi.org/10.1016/j.websem.2018.06.003
15. Olteanu-Raimond A.M., et al. A lightweight ontology for landmarks to assist rescue in mountainous areas. Advances in Cartography and GIScience of the ICA. 2023;4:15. https://doi.org/10.5194/ica-adv-4-15-2023
16. Guarino N. Some ontological principles for designing upper level lexical resources. In: First International Conference on language resources & evaluation: Granada, Spain, 28-30 May 1998. European Language Resources Association; 1998. p. 527-534. https://doi.org/10.48550/arXiv.cmp-lg/9809002
17. Loukachevitch N. Establishment of Taxonomic Relationships in Linguistic Ontologies. In: Wolff K.E., Palchunov D.E., Zagoruiko N.G., Andelfinger U. (eds.) Knowledge Processing and Data Analysis. KPP KONT 2007. Lecture Notes in Computer Science. Vol. 6581. Berlin, Heidelberg: Springer; 2011. p. 232-242. https://doi.org/10.1007/978-3-642-22140-8_15
18. Romanenko E., Calvanese D., Guizzardi G. Abstracting Ontology-Driven Conceptual Models: Objects, Aspects, Events, and Their Parts. In: Guizzardi R., Ralyté J., Franch X. (eds.) Research Challenges in Information Science. RCIS 2022. Lecture Notes in Business Information Processing. Vol. 446. Cham: Springer; 2022. p. 372-388. https://doi.org/10.1007/978-3-031-05760-1_22
19. Loukachevitch N.V. Part-whole relations in theory and practice. Neurocomputers. 2013;(1):007-012. EDN: PVRZNN
20. Kravec S.L. Scientific and educational encyclopedic portal and participation of regional scientific encyclopedias in it. Voprosy ehnciklopedistiki. 2019;(2):14-20. (In Russ., abstract in Eng.) EDN: NPZYHS
21. Vivaldi J., Rodríguez H. Finding Domain Terms using Wikipedia. In: Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10). Valletta, Malta: European Language Resources Association; 2010. p. 386-393. Available at: https://aclanthology.org/L10-1518/ (accessed 21.05.2024).
22. Bordea G., et al. Evaluation Dataset and Methodology for Extracting Application-Specific Taxonomies from the Wikipedia Knowledge Graph. In: Proceedings of the Twelfth Language Resources and Evaluation Conference. Marseille, France: European Language Resources Association; 2020. p. 2341-2347. Available at: https://aclanthology.org/2020.lrec-1.285/ (accessed 21.05.2024).
23. Kirillovich A., Nevzorova O. Ontological Analysis of the Wikipedia Category System. In: Proceedings of the 10th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management (IC3K 2018) KEOD. Seville, Spain: SciTePress; 2018. p. 358-366. https://doi.org/10.5220/0006961803580366
24. Suchanek F.M., Alam M., Bonald T., Chen L., Paris P.-H., Soria J. YAGO 4.5: A Large and Clean Knowledge Base with a Rich Taxonomy. In: Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR '24). New York, NY, USA: Association for Computing Machinery; 2024. p. 131-140. https://doi.org/10.1145/3626772.3657876
25. Vrandečić D., Pintscher L., Krötzsch M. Wikidata: The Making Of. In: Companion Proceedings of the ACM Web Conference 2023 (WWW '23 Companion). New York, NY, USA: Association for Computing Machinery; 2023. p. 615-624. https://doi.org/10.1145/3543873.3585579

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.