Разработка программного компонента для выявления методом словообразования хронологического порядка возникновения терминов

Аннотация

Родство слов является интереснейшей проблемой лингвистики русского языка, решить которую не так просто. Связи между родственными словами не всегда четко прослеживаются в связи с изменениями в языке. И близкие и схожие по происхождению слова становятся совсем непохожи друг на друга. Автоматически понять как связаны два слова - нетривиальная задача.
Для реализации задачи поиска хронологического порядка возникновения терминов требуются методы, позволяющие по двум заданным словам определять последовательность появления их друг относительно друга. В предлагаемой работе ставится задача разработки универсальных методов выявления хронологического порядка возникновения слов. Выделено три основных метода – метод словообразования, метод этимологических словарей, метод гипонимов и гиперонимов. Основное внимание уделено методу словообразования, как одному из основных для решения поставленной задачи. Основа метода - сравнение морфемного строения заданных слов. По способу словообразования соответствующий метод можно разделить на несколько способов применительно к поставленной задаче: приставочный способ, суффиксальный способ, приставочно-суффиксальный способ, бессуффиксный способ и способ слияния.
Программный компонент реализован таким образом, что для двух слов на входе можно узнать, каким методом одно слово образовано от другого. При определении конкретного способа словообразования используется различие в морфемном составе исследуемых слов. Лучшие результаты система показывает для бессуффиксного способа. Для анализа точности системы была подготовлена выборка, на ней проведена оценка точности системы.
Таким образом, предложено три метода, позволяющих решить задачу ранжирования слов по времени их появления и выявления хронологического порядка их возникновения. Один из методов - метод словообразования – реализован на практике и показывает хороший результат на собранной тестовой выборке.

Сведения об авторах

Irina Nikolaevna Polyakova, Московский государственный университет имени М.В. Ломоносова

доцент кафедры алгоритмических языков, факультет вычислительной математики и кибернетики,кандидат физико-математических наук

Ekaterina Aleksandrovna Filimonova, Московский государственный университет имени М.В. Ломоносова

магистрант, кафедра алгоритмических языков, факультет вычислительной математики и кибернетики

Литература

[1] Malkovsky М.G., Soloviev S.Y. Universal terminological space. In: Proceedings of the international seminar "Computer linguistics and intellectual technologies", vol. 1. Nauka, Moscow, 2002, pp. 266-270. Available at: http://park.glossary.ru/serios/theory01.php (accessed 28.10.2019). (In Russ.)
[2] Soloviev S.Y. Diagram and formula of the Glossary. In: Proceedings of the XXI national conference on artificial intelligence with international participation, vol. 2. LENAND, Moscow, 2008, pp. 157-164. Available at: http://park.glossary.ru/serios/theory08.php (accessed 28.10.2019). (In Russ.)
[3] Soloviev S.Y. Figurative representations of the terminological network. In: Application Software. MIREA, Moscow, 2008, pp. 55-69. Available at: http://park.glossary.ru/serios/theory06.php (accessed 28.10.2019). (In Russ.)
[4] Loukachevitch N. V., Dobrov B. V. The Sociopolitical Thesaurus as a resource for automatic document processing in Russian. Terminology. International Journal of Theoretical and Applied Issues in Specialized Communication. 2015; 21(2):237-262. (In Eng.) DOI: 10.1075/term.21.2.05lou
[5] Malkovsky М.G., Soloviev S.Y. Methods of formation of glossaries in the universal terminological space. In: Proceedings of the international conference "Computer linguistics and intellectual technologies". Nauka, Moscow, 2003, pp. 438-440. Available at: https://www.park.glossary.ru/serios/theory 02.php (accessed 28.10.2019). (In Russ.)
[6] Filimonova E.A., Soloviev S.Yu., Polyakova I.N. Development of universal detection methods for identifying chronological or pseudo-chronological order of occurrence of terms in a given subject area. In: Proceedings of the international conference "Open Semantic Technologies for Intelligent Systems" (OSTIS-2019). BSUIR, Minsk, 2019, pp. 285-288. Available at: https://libeldoc.bsuir.by/handle/123456789/34571 (accessed 28.10.2019). (In Eng. abstract in Russ.)
[7] Lejchik V.M. Terminovedenie: Predmet, metody, struktura [Terminology: Subject, methods, structure]. Librokom, Moscow, 2009. (In Russ.)
[8] Malkovsky М.G., Soloviev S.Y. Hierarchial Relations in Terminological Network. Open Semantic Technologies for Intelligent Systems. 2013; (3):147-152. Available at: ttps://www.elibrary.ru/item.asp?id=30115162 (accessed 28.10.2019). (In Russ. abstract in Eng.)
[9] Zemskaya E.A. Sovremennyj russkij yazyk. Slovoobrazovanie [Modern Russian Language: Word-formation]. Flinta: Nauka, Moscow, 2011. (In Russ.)
[10] Vandenbussche P-Y., Charlet J. Méta-modèle général de description de ressources terminologiques et ontologiques. In: IC 2009 - 20èmes Journées Francophones d’Ingénierie des Connaissances, May 2009, Hammamet, Tunisie. à paraître. ffhal-00379935f Available at: https://hal.archives-ouvertes.fr/hal-00379935 (accessed 28.10.2019). (In French)
[11] Grinev-Grinevich S.V. Vvedenie v terminografiyu [Introduction to terminography]. Librokom, Moscow, 2009. (In Russ.)
[12] Kalyanpur A., Parsia B., Hendler J. A Tool for Working with Web Ontologies. International Journal on Semantic Web and Information Systems. 2005; 1(1):36-39. (In Eng.) DOI: 10.4018/jswis.2005010103
[13] Mozharova V.А., Lukashevich N.V. Examination of the indications for the extraction of named entities from texts in Russian. Scientific and Technical Information Processing. Series 2: Information Processes and Systems. 2017; (5):14-21. Available at: https://www.elibrary.ru/item.asp?id=29149149 (accessed 28.10.2019). (In Russ.)
[14] Nokel M.A., Loukachevitch N.V. Topic Models in the Task of Single-Word Term Extraction. Programmnaya inzheneriya = Software Engineering. 2014; (3):34-40. Available at: https://www.elibrary.ru/item.asp?id=21257444 (accessed 28.10.2019). (In Russ., abstract in Eng.)
[15] Shelov S.D. Termin. Terminologichnost'. Terminologicheskie opredeleniya [A Technical Term. Its Terminological Side. On Definitions of Technical Terms]. St. Petersburg, SPbSU, 2003. (In Russ.)
[16] Apresyan Yu.D. Izbrannye trudy. T. 1. Leksicheskaya semantika [Selected Works. Vol. 1: Lexical Semantics (Synonymous Means of Language)]. 2nd ed. Vostochnaya literatura, RAS, Moscow, 1995. (In Russ.)
[17] Gubanov D.A., Makarenko A.V., Novikov D.A. Analysis methods for the terminological structure of a subject area. Automation and Remote Control. 2014; 75(12):2231-2247. (In Eng.) DOI: 10.1134/S00051179141201331
[18] Lukashevich N.V., Gerasimova А.А. Detecting Conventionalized Multiword Expressions by Using a Word Association Experiment. Moscow State University Bulletin. Series 9. Philology. 2018; (1):23-42. Available at: https://www.elibrary.ru/item.asp?id=32833935 (accessed 28.10.2019). (In Russ., abstract in Eng.)
[19] Malkovskii M.G., Soloviev S.Yu. Terminological Networks. Open Semantic Technologies for Intelligent Systems. 2012; (2):77-82. Available at: https://www.elibrary.ru/item.asp?id=32704351 (accessed 28.10.2019). (In Russ., abstract in Eng.)
[20] Smith K.W. Cython: A Guide for Python Programmers. O'Reilly Media, Inc., 2015. (In Eng.)
[21] Lutz M. Learning Python, 5th ed., Dialectics, Moscow, 2019. (In Russ.)
[22] Formica A. Similarity reasoning in formal concept analysis: from one- to many-valued contexts. Knowledge and Information Systems. 2019; 60(2):715-739. (In Eng.) DOI: 10.1007/s10115-018-1252-4
[23] Malkovskii M.G., Soloviev S.Yu. Rules for Terminological Clusters Creations. Open Semantic Technologies for Intelligent Systems. 2014; (4):169-172. Available at: https://www.elibrary.ru/item.asp?id=30080190 (accessed 28.10.2019). (In Russ., abstract in Eng.)
[24] Soloviev S.Yu. About one method of generation of pages-maps for websites. Information Processes. 2008; 8(1):24-29. Available at: https://www.elibrary.ru/item.asp?id=17685281 (accessed 28.10.2019). (In Russ.)
[25] Lutz M. Learning Python. 5th Edition. O'Reilly Media, 2013. (In Eng.)
[26] Alekseev A.A., Loukachevitch N.V. The automatic retrieval of news entities based on the structure of a news cluster. Scientific and Technical Information Processing. 2012; 39(6):303-309. (In Eng.) DOI: 10.3103/S0147688212060019
[27] Mozharova V.A., Lukashevich N.V. Investigation of features for extraction of named entities from texts in Russian. Automatic Documentation and Mathematical Linguistics. 2017; 51(3):127-134. (In Eng.) DOI: 10.3103/S0005105517030049
[28] Kuznetsov S.O. Methods of Lattice Theory and Formal Concept Analysis in Machine Learning. Novosti iskusstvennogo intellekta = Artificial Intelligence News. 2004; (3):19-31. Available at: http://www.raai.org/library/ainews/getainews.php?2004 (accessed 28.10.2019). (In Russ., abstract in Eng.)
[29] Ganter B., Wille R. Formal Concept Analysis: Mathematical Foundations. Berlin: Springer Science & Business Media, 1999. (In Eng.) DOI: 10.1007/978-3-642-59830-2
[30] Freixa J., Fernández-Silva S. Terminological variation and cognition: cognitive factors in the name of a specialized concept. In: Drouin P., Francœur A., Humbley J., Picton A. (Eds.) Multiple Perspectives on Terminological Variation. John Benjamins Publishing Company, 2017, pp. 155-180. (In Eng.) DOI: 10.1075/tlrp.18.07fre
Опубликована
2019-12-23
Как цитировать
POLYAKOVA, Irina Nikolaevna; FILIMONOVA, Ekaterina Aleksandrovna. Разработка программного компонента для выявления методом словообразования хронологического порядка возникновения терминов. Международный научный журнал «Современные информационные технологии и ИТ-образование», [S.l.], v. 15, n. 4, p. 900-911, dec. 2019. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/552>. Дата доступа: 05 june 2020 doi: https://doi.org/10.25559/SITITO.15.201904.900-911.
Раздел
Исследования и разработки в области новых ИТ и их приложений