RESOURCE INTENSITY CALCULATION  OF TEXTS LANGUAGE IDENTIFICATION PROGRAMS

Сергей Николаевич Калегин

doi:10.25559/SITITO.2017.1.446

РАСЧЁТ РЕСУРСОЁМКОСТИ ПРОГРАММ ЯЗЫКОВОЙ ИДЕНТИФИКАЦИИ ТЕКСТА

Сергей Николаевич Калегин Московский научно-исследовательский телевизионный институт; Институт проблем управления им. В.А. Трапезникова РАН http://orcid.org/0000-0003-3540-3902

DOI: https://doi.org/10.25559/SITITO.2017.1.446

Аннотация

В статье приводится расчёт ресурсоёмкости программных решений для определения языковой принадлежности текста в зависимости от их способов идентификации. Рассмотрены наиболее используемые сегодня способы с указанием их преимуществ и недостатков, но без учёта вариантов их технической реализации. Это позволит разработчикам более осмысленно подходить к проектированию подобного программного обеспечения, а потребителям более осознанно его выбирать.

Сведения об авторе

Сергей Николаевич Калегин, Московский научно-исследовательский телевизионный институт; Институт проблем управления им. В.А. Трапезникова РАН

начальник сектора НТО, аспирант

Литература

1. 1500 neobhodimyh ispanskih slov / Pod. Red. Pudkovoj A.V. – Moskva: Astrel', 2007. – 63 s.
2. GILJaREVSKIJ R.S. Opredelitel' jazykov mira po pis'mennostjam / Grivnin V.S. – Moskva, 1961. – 303 s.
3. KALEGIN S.N. Vazhnost' vybora osnovnogo identifikacionnogo principa pri proektirovanii jazykovyh opredelitelej / Modern Information Technology and IT-education. Vol. 12, № 2. – S. 194-204.
4. KALEGIN S.N. Sposoby opredelenija jazyka teksta / Filologicheskie nauki. Voprosy teorii i praktiki. № 12 (54): v 4-h ch. Ch. II. Tambov: Gramota, 2015. – S. 84-89.
5. KALEGIN S.N. Sposoby opredelenija jazykovoj prinadlezhnosti nestrukturirovannogo teksta v mul'tijazychnoj informacionnoj srede. Konferencija «CONCORT-2016», Nizhnij Novgorod, 2016.
6. KAMYNINA A.A. Sovremennyj russkij jazyk. Morfologija: Uchebnoe posobie dlja studentov filologicheskih fakul'tetov gosudarstvennyh universitetov. M.: Izd-vo MGU, 1999. 240 s.
7. KUJaNOV Ju.V. Kolichestvennyj analiz Bol'shogo russkogo slovarja-spravochnika sinonimov / Trishin V.N. Zhurnal «Nauchnoe obozrenie: gumanitarnye issledovanija», №9, 2015 g. – S. 105-111
8. Lingvisticheskij jenciklopedicheskij slovar' / Gl. red. V.N. Jarceva. – Moskva: Sovetskaja jenciklopedija, 1990. – 685 s.
9. Ljashevskaja O. N., Sharov S. A. Chastotnyj slovar' sovremennogo russkogo jazyka (na materialah Nacional'nogo korpusa russkogo jazyka). – M.: Azbukovnik, 2009. – 1087 s.
10. Patent № 2251737 RF, G06K9/68. Sposob avtomaticheskogo opredelenija jazyka raspoznavaemogo teksta pri mnogojazychnom raspoznavanii / Anisimovich K.V., Tereshhenko V.V., Rybkin V.Ju.; Abi Softver Ltd. (CY); Opublikovan 10.05.2005.
11. Patent № 2500024 RF, G06F17/00. Sposob avtomatizirovannogo opredelenija jazyka i (ili) kodirovki tekstovogo dokumenta / Lapshin V.A., Pshehotskaja E.A., Perov D.V.; «Centr Innovacij Natal'i Kasperskoj» (RU); Opublikovan 27.11.2013
12. Patent № 6370269 SShA. Optical character recognition of handwritten or cursive text in multiple languages. / Al-Karmi, Abdel Naser, Shamsher S., Baldev Singh; International Business Machines Corporation (USA); Opublikovan 9.04.2002.
13. PETROChENKOV A.V. 2000 samyh upotrebitel'nyh anglijskih slov / 2000 Most Frequent English Words. – Moskva: Ajris-Press, 2011. – 304 s.
14. RUSINOV N.D. Drevnerusskij jazyk / M: Vysshaja shkola, 1997. – 207 s.
15. SELEZNEV K. Obrabotka tekstov na estestvennom jazyke. «Otkrytye sistemy», № 12, 2003 [Jelektronnyj resurs]. URL: http://www.osp.ru/os/2003/12/183694/
16. SMIRNOV V. A. Avtomatizirovannaja sistema analiza nestrukturirovannoj rechevoj informacii s primeneniem lingvisticheskih znanij : dissertacija … kandidata tehnicheskih nauk : 05.13.11
17. SOTNIK S.L. Identifikacija jazyka UNICODE-teksta po N-grammam dlinoj do 4-h vkljuchitel'no (kvadrogrammam) / zhurnal «Matematichne modeljuvannja» № 1,2(15). – Dneprodzerzhinsk: izdatel'stvo DGTU, 2006. – S. 111-114.
18. SUHANOV V.F. Kitajsko-russkij tematicheskij slovar' 3000 naibolee upotrebitel'nyh slov. – Moskva: Jekonomika, 2001. – 307 s.
19. Uchim japonskie ieroglify / Pod red. F. Sakade i dr. – SPb: Lan', 1997. – 320 s.
20. Chastotnyj slovar' russkogo jazyka pod red. Zasorinoj L. N. – M.: Russkij jazyk, 1977. – 936 s.
21. ABBYY [Электронный ресурс]. URL: http://www.abbyy.ru/products/ (дата обращения: 20.10.2016).
22. ALMEIDA-CRUZ, Y., ESTÉVEZ-VELARDE, S., PIAD-MORFFIS, A. Detección de Idioma en Twitter / Revista Internacional de Gestión del Conocimiento y la Tecnología. Vol. 2 (3), 2014.
23. CAVNAR W. B., TRENKLE J. M.. 1994. N-gram-based text categorization. In Proceedings of SDAIR’94, pages 161–175.
24. GOTTRON T., LIPKA N. A Comparison of Language Identification Approaches on Short, Query-Style Texts. / 32nd European Conference on Information Retrieval (ECIR 10), Springer, 2010.
25. GREFENSTETTE G. Comparing two language identification schemes. / 3rd International Conference JADT 1995 (Statistical Analysis of Textual Data). Rome, Italy.
26. GROTHE L., E. DE LUCA W., A. NURNBERGER A Comparative Study on Language Identification Methods / Conference LREC 2008, Marrakech, Morocco.
27. INDHUJA K, INDU M, SREEJITH C, P. C. REGHU RAJ Text Based Language Identification System for Indian Languages Following Devanagiri Script / International Journal of Engineering Research & Technology (IJERT), Vol. 3 Issue 4, 2014.
28. JOHNSON S. Solving the problem of language recognition [Report] / Technical report, School of Computer Studies, University of Leeds, 1993.
29. KRANIG S. Evaluation of Language Identification Methods / University of Tubingen, Bachelor of Arts Thesis.
30. mnoGoSearch [Электронный ресурс]. URL: http://www.mnogosearch.org/ (дата обращения: 20.10.2016).
31. ÖLVECKÝ T. N-Gram Based Statistics Aimed at Language Identification / Konferencia IIT.SRC 2005, Bratislava.
32. PADRO M., PADRO Ll. Comparing methods for language identification. URL: http://www.sepln.org/revistaSEPLN/revista/33/33-Pag155.pdf (дата обращения: 20.10.2016).
33. ROMSDORFER, H., PFISTER, B. (2007). Text analysis and language identification for polyglot text-to-speech synthesis. Speech Communication 49, 697-724.
34. TIMOTHY J. Hazen Automatic Language Identification Using a Segmen t-Based Approach / S.B., Massachusetts Institute of Technology, 1991.
35. VOJTEK P., BIELIKOVA M. Comparing Natural Language Identification Methods based on Markov Processes.

Опубликована

2017-05-30

Как цитировать

КАЛЕГИН, Сергей Николаевич. РАСЧЁТ РЕСУРСОЁМКОСТИ ПРОГРАММ ЯЗЫКОВОЙ ИДЕНТИФИКАЦИИ ТЕКСТА. Современные информационные технологии и ИТ-образование, [S.l.], v. 13, n. 1, p. 59-73, may 2017. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/208>. Дата доступа: 14 july 2026 doi: https://doi.org/10.25559/SITITO.2017.1.446.

Форматы библиографических ссылок

Выпуск

Том 13 № 1 (2017): Современные информационные технологии и ИТ-образование

Раздел

Большие данные и приложения

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.

Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.

РАСЧЁТ РЕСУРСОЁМКОСТИ ПРОГРАММ ЯЗЫКОВОЙ ИДЕНТИФИКАЦИИ ТЕКСТА

Аннотация

Сведения об авторе

Литература

Наиболее читаемые статьи этого автора (авторов)