Разработка программного компонента для выявления методом словообразования хронологического порядка возникновения терминов

  • Ирина Николаевна Полякова Московский государственный университет имени М.В. Ломоносова
  • Екатерина Александровна Филимонова Московский государственный университет имени М.В. Ломоносова, г. Москва, Россия http://orcid.org/0000-0003-1155-4386

Аннотация

Родство слов является интереснейшей проблемой лингвистики русского языка, решить которую не так просто. Связи между родственными словами не всегда четко прослеживаются в связи с изменениями в языке. И близкие и схожие по происхождению слова становятся совсем непохожи друг на друга. Автоматически понять как связаны два слова - нетривиальная задача.


Для реализации задачи поиска хронологического порядка возникновения терминов требуются методы, позволяющие по двум заданным словам определять последовательность появления их друг относительно друга. В предлагаемой работе ставится задача разработки универсальных методов выявления хронологического порядка возникновения слов.  Выделено три основных метода – метод словообразования, метод этимологических словарей,  метод гипонимов и гиперонимов.  Основное внимание уделено методу словообразования, как одному из основных для  решения поставленной задачи. Основа метода - сравнение морфемного строения заданных слов. По способу словообразования соответствующий метод можно разделить на несколько способов применительно к поставленной задаче: приставочный способ, суффиксальный способ, приставочно-суффиксальный способ, бессуффиксный способ и способ слияния.


Программный компонент реализован таким образом, что для двух слов на входе можно узнать,  каким методом одно слово образовано от другого. При определении конкретного способа словообразования используется различие в морфемном составе  исследуемых слов. Лучшие результаты система показывает для бессуффиксного способа. Для анализа точности системы была подготовлена выборка, на ней проведена оценка точности системы.


Таким образом, предложено три метода, позволяющих решить задачу ранжирования слов по времени их появления и выявления хронологического  порядка их возникновения. Один из методов - метод словообразования – реализован на практике и показывает хороший результат на собранной тестовой выборке.

Сведения об авторе

Екатерина Александровна Филимонова, Московский государственный университет имени М.В. Ломоносова, г. Москва, Россия

 магистрант, кафедра алгоритмических языков, факультет вычислительной математики и кибернетики

Литература

[1] Мальковский М.Г., Соловьев С.Ю. Универсальное терминологическое пространство //Труды международного семинара "Компьютерная лингвистика и интеллектуальные технологии". М.: Наука, 2002. т.1. с. 266-270. URL: https:// www.park.glossary.ru/serios/theory01.php (дата обращения: 28.10.2019).
[2] Соловьев С.Ю. Схема и формула глоссария// Сб. Трудов XXI национальной конференции по искусственному интеллекту с международным участием. Т. 2. М.: ЛЕНАНД, 2008. С.157-164 . URL: https:// www.park.glossary.ru/serios/theory08.php (дата обращения: 28.10.2019) .
[3] Соловьев С.Ю. Образные представления терминологической сети. // Прикладное программное обеспечение. М.: Изд-во МИРЭА, 2008. с.55-69. URL: https:// www.park.glossary.ru/serios/theory06.php (дата обращения: 28.10.2019).
[4] Loukachevitch N.V., Boris Dobrov B.V. The Sociopolitical Thesaurus as a resource for automatic document processing in Russian // Terminology, John Benjamins Publishing Company (Netherlands), 2015, Vol. 21, No 2, pp. 238-263 https://doi.org/10.1075/term.21.2.05lou (дата обращения: 28.10.2019).
[5] Мальковский М.Г., Соловьев С.Ю. Методы формирования глоссариев в универсальном терминологическом пространстве.//Труды международной конференции "Компьютерная лингвистика и интеллектуальные технологии". М.: Наука, 2003. с. 438-440. URL: https:// www.park.glossary.ru/serios/theory 02.php (дата обращения: 28.10.2019).
[6] Filimonova E.A., Soloviev S.Yu., Polyakova I.N. Development of universal detection methods for identifying chronological or pseudo-chronological order of occurrence of terms in a given subject area.// Journal “ Open Semantic Technologies for Intelligent Systems” . Minsk: Beloruss. Gos. Univ. Inform. Radioelektron. 2019. No. 3 Pp. 285-288. https:// libeldoc.bsuir.by/handle /123456789/34571 (дата обращения: 28.10.2019).
[7] Лейчик, В.М. Терминоведение: Предмет, методы, структура. М.: Книжный дом "ЛИБРОКОМ", 2009. 256 c.
[8] Мальковский М.Г., Соловьев С.Ю. Исследование родовидовых отношений в терминологических сетях.// Материалы III Международной научно-технической конференции "Открытые семантические технологии проектирования интеллектуальных систем (OSTIS-2013)". Минск: БГУИР, 2013. С.147-152 URL: https:// www.park.glossary.ru/serios/theory11.php (дата обращения: 28.10.2019).
[9] Земская, Е. А. Современный русский язык. Словообразование. М.: Флинта : Наука, 2011. 328 с.
[10] Vandenbussche PY, Charlet J. Meta-model general description of terminology resources and ontological//Proc Knowledge Engineering. 2009. Pp. 193-204.
[11] Гринев-Гриневич С.В. Введение в терминографию. М.: ЛИБРОКОМ, 2009. 224 с.
[12] Kalyanpur A, Parsia B, Hendler J. A Tool for Working with Web Ontologies// International Journal on Semantic Web and Information Systems. 2005. 1: pp. 36-49.
[13] Можарова В.А., Лукашевич Н.В. Исследование признаков для извлечения именованных сущностей из текстов на русском языке // Научно-техническая информация. С. 2: Информационные процессы и системы, М.: изд. ВИНИТИ, 2017. № 5, с. 14-21
[14] Нокель М.А., Лукашевич Н.В. Тематические модели в задаче извлечения однословных терминов// Программная инженерия, М.: изд. Новые технологии , 2014. № 3, с. 34-40
[15] Шелов С.Д. Термин. Терминологичность. Терминологические определения. С-Петербург: Изд-во С-Петербургского гос. ун-та, 2003. 279 с.
[16] Апресян Ю.Д. Избранные труды. Т. 1. Лексическая семантика, 2-е изд., испр. и доп. М.: «Восточная литература» РАН, 1995. 472 с.
[17] Gubanov D.A., A. V. Makarenko A.V., Novikov D.A. Analysis methods for the terminological structure of a subject area //Automation and Remote Control. 2014, Vol. 75, Iss. 12, pp 2231–2247. DOI:10.1134/S00051179141201331
[18] Лукашевич Н.В., Герасимова А.А. Определение устойчивых словосочетаний методом ассоциативного эксперимента// Вестник Московского университета. С. 9. 2018. № 1 с. 23-42.
[19] Mal’kovskii, M.G., Solov’ev, S.Yu., Terminological Networks, //Tr. II Proc. II Int. Conf. “Open Semantic Technologies of Intelligent Systems Design”. Minsk: Beloruss. Gos. Univ. Inform. Radioelektron., 2012, pp. 77–82.
[20] Kurt W. Smith . Cython. A Guide for Python Programmers. O'Reilly Media, Inc., 1005 Gravenstein Highway North, Sebastopol, CA 95472, 2015. 235 p.
[21] Лутц М., Изучаем Python, 5-е изд., М.: Диалектика, 2019. т.1, 832 с.
[22] Formica A. Similarity reasoning in formal concept analysis: from one- to many-valued contexts // Knowledge and Information Systems. 2019. Vol. 60, Iss. 2, pp. 715–739
[23] Мальковский М.Г., Соловьев С.Ю.Правила формирования терминологических кластеров.// Материалы IV Международной научно-технической конференции"Открытые семантические технологии проектирования интеллектуальных систем (OSTIS-2014)". Минск: БГУИР, 2014. С.169-172 URL: https:// www.park.glossary.ru/serios/theory12.php (дата обращения: 28.10.2019).
[24] Соловьев С.Ю. Об одном методе генерации страниц-карт для веб-сайтов //Журнал “Информационные процессы”, 2008, том 8, № 1, с. 24-29.
[25] Mark Lutz. Learning Python, 5th Edition. O'Reilly Media. 2013. 1594 с.
[26] Alekseev, A.A., Loukachevitch, N.V. The automatic retrieval of news entities based on the structure of a news cluster //Sci. Tech. Inf. Proc. 2012. 39. Pp. 303-309. https:// Doi.org/10.3103/S0147688212060019
[27] Mozharova V.A., Lukashevich N.V. Investigation of features for extraction of named entities from texts in Russian// Automatic Documentation and Mathematical Linguistics, United States, Allerton Press Inc, 2017. Vol. 51, No 3, pp. 127-134
[28] Кузнецов С.О. Методы теории решеток и анализа формальных понятий в машинном обучении // Новости искусственного интеллекта. 2004. № 3. С. 19-31.
[29] Ganter B., Wille R. Formal Concept Analysis: Mathematical Foundations. Berlin: Springer Science & Business Media, 2012. P. 264. DOI. 10.1007/978-3-642-59830-2
[30] Sabela Fernandez Silva. Terminological variation and cognition: cognitive factors in the name of a specialized concept. //Terminology and Lexicography, Research and Practice. 2017. pp. 155–180.URL: https://doi.org/10.1075/tlrp.18.07fre

References

[1] Malkovsky М.G., Soloviev S.Y. Universal terminological space //Proceedings of the international seminar "Computer linguistics and intellectual technologies"Proceedings of the international seminar "Computer linguistics and intellectual technologies". М.: Nauka, 2002. vol.1. p. 266-270. URL: https:// www.park.glossary.ru/serios/theory01.php (date of issue: 28.10.2019). (In Russ.)
[2] Soloviev S.Y. Diagram and formula of the Glossary// Proceedings of the XXI national conference on artificial intelligence with international participation. Vol. 2. М.: LENAND, 2008. P.157-164 . URL: https:// www.park.glossary.ru/serios/theory08.php (date of issue: 28.10.2019). (In Russ.)
[3] Soloviev S.Y. Figurative representations of the terminological network // Application software. М.: Publishing MIREA, 2008. p.55-69. URL: https:// www.park.glossary.ru/serios/theory06.php (date of issue: 28.10.2019). (In Russ.)
[4] Loukachevitch N.V., Boris Dobrov B.V. The Sociopolitical Thesaurus as a resource for automatic document processing in Russian // Terminology, John Benjamins Publishing Company (Netherlands), 2015, Vol. 21, No 2, pp. 238-263 https://doi.org/10.1075/term.21.2.05lou (date of issue: 28.10.2019). (In Eng.)
[5] Malkovsky М.G., Soloviev S.Y. Methods of formation of glossaries in the universal terminological space.//Proceedings of the international conference "Computer linguistics and intellectual technologies". М.: Nauka, 2003. p. 438-440. URL: https:// www.park.glossary.ru/serios/theory 02.php (date of issue: 28.10.2019). (In Russ.)
[6] Filimonova E.A., Soloviev S.Yu., Polyakova I.N. Development of universal detection methods for identifying chronological or pseudo-chronological order of occurrence of terms in a given subject area.// Journal “ Open Semantic Technologies for Intelligent Systems” . Minsk: Beloruss. Gos. Univ. Inform. Radioelektron. 2019. No. 3 Pp. 285-288. https:// libeldoc.bsuir.by/handle /123456789/34571 (date of issue: 28.10.2019). (In Eng.)
[7] Lasik V.М. Terminology: Subject, methods, structure. М.: Book house "LIBROKOM", 2009. 256 p. (In Russ.)
[8] Malkovsky М.G., Soloviev S.Y. Research of species relations in terminological networks.// Materials of the III International scientific and technical conference "Open semantic technologies of intelligent systems design (OSTIS-2013)". Minsk: BGUIR, 2013. P.147-152 URL: https:// www.park.glossary.ru/serios/theory11.php (date of issue: 28.10.2019). (In Russ.)
[9] Zemskaya Е.А. Modern Russian language. Word-formation. М.: Flinta : Nauka, 2011. 328 p. (In Russ.)
[10] Vandenbussche PY, Charlet J. Meta-model general description of terminology resources and ontological//Proc Knowledge Engineering. 2009. Pp. 193-204. (In Eng.)
[11] Grinev-Grinevich S.V. Introduction to terminography. М.: LIBROKOM, 2009. 224 p. (In Russ.)
[12] Kalyanpur A, Parsia B, Hendler J. A Tool for Working with Web Ontologies// International Journal on Semantic Web and Information Systems. 2005. 1: pp. 36-49. (In Eng.)
[13] Mozharova V.А., Lukashevich N.V. Examination of the indications for the extraction of named entities from texts in Russian // Scientific and technical information. C. 2: Information processes and systems, М.: pub. VINITI, 2017. № 5, p. 14-21 (In Russ.)
[14] Nickel М.А., Lukashevich N.V. Thematic models in the problem of extracting one-word terms// Software engineering, М.: pub. New technology, 2014. № 3, p. 34-40 (In Russ.)
[15] Shelov S.D. Term. Terminology. Terminology definitions. St. Petersburg: Publishing House of St. Petersburg state University, 2003. 279 p. (In Russ.)
[16] Apresyan Y. D. Selected works. Vol. Lexical semantics, 2nd ed., ISPR. and additional M.: "Eastern literature" Russian Academy of Sciences, 1995, 472 p. (In Russ.)
[17] Gubanov D.A., A. V. Makarenko A.V., Novikov D.A. Analysis methods for the terminological structure of a subject area //Automation and Remote Control. 2014, Vol. 75, Iss. 12, pp 2231–2247. DOI:10.1134/S00051179141201331 (In Eng.)
[18] Lukashevich N.V., Gerasimova А.А. Determination of stable phrases by the method of associative experiment / / Bulletin of the Moscow University. С. 9. 2018. № 1 с. 23-42. (In Russ.)
[19] Mal’kovskii, M.G., Solov’ev, S.Yu., Terminological Networks, //Tr. II Proc. II Int. Conf. “Open Semantic Technologies of Intelligent Systems Design”. Minsk: Beloruss. Gos. Univ. Inform. Radioelektron., 2012, pp. 77–82.
[20] Kurt W. Smith . Cython. A Guide for Python Programmers. O'Reilly Media, Inc., 1005 Gravenstein Highway North, Sebastopol, CA 95472, 2015. 235 p. (In Eng.)
[21] Lutz M., Learning Python, 5th ed., M.: Dialectics, 2019. vol.1, 832 p. (In Russ.)
[22] Formica A. Similarity reasoning in formal concept analysis: from one- to many-valued contexts // Knowledge and Information Systems. 2019. Vol. 60, Iss. 2, pp. 715–739 (In Eng.)
[23] Malkovsky М.Г., Soloviev S.Y. Rules of formation of terminological clusters.// Proceedings of the IV International scientific and technical conference " Open semantic technologies of intelligent systems design (OSTIS-2014)". Minsk: BGUIR, 2014. P.169-172 URL: https:// www.park.glossary.ru/serios/theory12.php (date of issue: 28.10.2019). (In Russ.)
[24] Soloviev S.Y. About one method of generation of pages-maps for websites / / Journal " Information processes”, 2008, vol. 8, № 1, p. 24-29. (In Russ.)
[25] Mark Lutz. Learning Python, 5th Edition. O'Reilly Media. 2013. 1594 с. (In Eng.)
[26] Alekseev, A.A., Loukachevitch, N.V. The automatic retrieval of news entities based on the structure of a news cluster //Sci. Tech. Inf. Proc. 2012. 39. Pp. 303-309. https:// Doi.org/10.3103/S0147688212060019 (In Eng.)
[27] Mozharova V.A., Lukashevich N.V. Investigation of features for extraction of named entities from texts in Russian// Automatic Documentation and Mathematical Linguistics, United States, Allerton Press Inc, 2017. Vol. 51, No 3, pp. 127-134 (In Eng.)
[28] Kuznetsov S. O. methods of lattice theory and analysis of formal concepts in machine learning / / artificial intelligence news. 2004. № 3. P. 19-31. (In Russ.)
[29] Ganter B., Wille R. Formal Concept Analysis: Mathematical Foundations. Berlin: Springer Science & Business Media, 2012. P. 264. DOI. 10.1007/978-3-642-59830-2 (In Eng.)
[30] Sabela Fernandez Silva. Terminological variation and cognition: cognitive factors in the name of a specialized concept. //Terminology and Lexicography, Research and Practice. 2017. pp. 155–180.URL: https://doi.org/10.1075/tlrp.18.07fre (In Eng.)
Опубликована
2019-12-23
Как цитировать
ПОЛЯКОВА, Ирина Николаевна; ФИЛИМОНОВА, Екатерина Александровна. Разработка программного компонента для выявления методом словообразования хронологического порядка возникновения терминов. Международный научный журнал «Современные информационные технологии и ИТ-образование», [S.l.], v. 15, n. 4, p. 900-911, dec. 2019. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/552>. Дата доступа: 27 feb. 2020 doi: https://doi.org/10.25559/SITITO.15.201904.900-911.
Раздел
Исследования и разработки в области новых ИТ и их приложений