РАСЧЁТ РЕСУРСОЁМКОСТИ ПРОГРАММ ЯЗЫКОВОЙ ИДЕНТИФИКАЦИИ ТЕКСТА
Аннотация
В статье приводится расчёт ресурсоёмкости программных решений для определения языковой принадлежности текста в зависимости от их способов идентификации. Рассмотрены наиболее используемые сегодня способы с указанием их преимуществ и недостатков, но без учёта вариантов их технической реализации. Это позволит разработчикам более осмысленно подходить к проектированию подобного программного обеспечения, а потребителям более осознанно его выбирать.
Литература
2. GILJaREVSKIJ R.S. Opredelitel' jazykov mira po pis'mennostjam / Grivnin V.S. – Moskva, 1961. – 303 s.
3. KALEGIN S.N. Vazhnost' vybora osnovnogo identifikacionnogo principa pri proektirovanii jazykovyh opredelitelej / Modern Information Technology and IT-education. Vol. 12, № 2. – S. 194-204.
4. KALEGIN S.N. Sposoby opredelenija jazyka teksta / Filologicheskie nauki. Voprosy teorii i praktiki. № 12 (54): v 4-h ch. Ch. II. Tambov: Gramota, 2015. – S. 84-89.
5. KALEGIN S.N. Sposoby opredelenija jazykovoj prinadlezhnosti nestrukturirovannogo teksta v mul'tijazychnoj informacionnoj srede. Konferencija «CONCORT-2016», Nizhnij Novgorod, 2016.
6. KAMYNINA A.A. Sovremennyj russkij jazyk. Morfologija: Uchebnoe posobie dlja studentov filologicheskih fakul'tetov gosudarstvennyh universitetov. M.: Izd-vo MGU, 1999. 240 s.
7. KUJaNOV Ju.V. Kolichestvennyj analiz Bol'shogo russkogo slovarja-spravochnika sinonimov / Trishin V.N. Zhurnal «Nauchnoe obozrenie: gumanitarnye issledovanija», №9, 2015 g. – S. 105-111
8. Lingvisticheskij jenciklopedicheskij slovar' / Gl. red. V.N. Jarceva. – Moskva: Sovetskaja jenciklopedija, 1990. – 685 s.
9. Ljashevskaja O. N., Sharov S. A. Chastotnyj slovar' sovremennogo russkogo jazyka (na materialah Nacional'nogo korpusa russkogo jazyka). – M.: Azbukovnik, 2009. – 1087 s.
10. Patent № 2251737 RF, G06K9/68. Sposob avtomaticheskogo opredelenija jazyka raspoznavaemogo teksta pri mnogojazychnom raspoznavanii / Anisimovich K.V., Tereshhenko V.V., Rybkin V.Ju.; Abi Softver Ltd. (CY); Opublikovan 10.05.2005.
11. Patent № 2500024 RF, G06F17/00. Sposob avtomatizirovannogo opredelenija jazyka i (ili) kodirovki tekstovogo dokumenta / Lapshin V.A., Pshehotskaja E.A., Perov D.V.; «Centr Innovacij Natal'i Kasperskoj» (RU); Opublikovan 27.11.2013
12. Patent № 6370269 SShA. Optical character recognition of handwritten or cursive text in multiple languages. / Al-Karmi, Abdel Naser, Shamsher S., Baldev Singh; International Business Machines Corporation (USA); Opublikovan 9.04.2002.
13. PETROChENKOV A.V. 2000 samyh upotrebitel'nyh anglijskih slov / 2000 Most Frequent English Words. – Moskva: Ajris-Press, 2011. – 304 s.
14. RUSINOV N.D. Drevnerusskij jazyk / M: Vysshaja shkola, 1997. – 207 s.
15. SELEZNEV K. Obrabotka tekstov na estestvennom jazyke. «Otkrytye sistemy», № 12, 2003 [Jelektronnyj resurs]. URL: http://www.osp.ru/os/2003/12/183694/
16. SMIRNOV V. A. Avtomatizirovannaja sistema analiza nestrukturirovannoj rechevoj informacii s primeneniem lingvisticheskih znanij : dissertacija … kandidata tehnicheskih nauk : 05.13.11
17. SOTNIK S.L. Identifikacija jazyka UNICODE-teksta po N-grammam dlinoj do 4-h vkljuchitel'no (kvadrogrammam) / zhurnal «Matematichne modeljuvannja» № 1,2(15). – Dneprodzerzhinsk: izdatel'stvo DGTU, 2006. – S. 111-114.
18. SUHANOV V.F. Kitajsko-russkij tematicheskij slovar' 3000 naibolee upotrebitel'nyh slov. – Moskva: Jekonomika, 2001. – 307 s.
19. Uchim japonskie ieroglify / Pod red. F. Sakade i dr. – SPb: Lan', 1997. – 320 s.
20. Chastotnyj slovar' russkogo jazyka pod red. Zasorinoj L. N. – M.: Russkij jazyk, 1977. – 936 s.
21. ABBYY [Электронный ресурс]. URL: http://www.abbyy.ru/products/ (дата обращения: 20.10.2016).
22. ALMEIDA-CRUZ, Y., ESTÉVEZ-VELARDE, S., PIAD-MORFFIS, A. Detección de Idioma en Twitter / Revista Internacional de Gestión del Conocimiento y la Tecnología. Vol. 2 (3), 2014.
23. CAVNAR W. B., TRENKLE J. M.. 1994. N-gram-based text categorization. In Proceedings of SDAIR’94, pages 161–175.
24. GOTTRON T., LIPKA N. A Comparison of Language Identification Approaches on Short, Query-Style Texts. / 32nd European Conference on Information Retrieval (ECIR 10), Springer, 2010.
25. GREFENSTETTE G. Comparing two language identification schemes. / 3rd International Conference JADT 1995 (Statistical Analysis of Textual Data). Rome, Italy.
26. GROTHE L., E. DE LUCA W., A. NURNBERGER A Comparative Study on Language Identification Methods / Conference LREC 2008, Marrakech, Morocco.
27. INDHUJA K, INDU M, SREEJITH C, P. C. REGHU RAJ Text Based Language Identification System for Indian Languages Following Devanagiri Script / International Journal of Engineering Research & Technology (IJERT), Vol. 3 Issue 4, 2014.
28. JOHNSON S. Solving the problem of language recognition [Report] / Technical report, School of Computer Studies, University of Leeds, 1993.
29. KRANIG S. Evaluation of Language Identification Methods / University of Tubingen, Bachelor of Arts Thesis.
30. mnoGoSearch [Электронный ресурс]. URL: http://www.mnogosearch.org/ (дата обращения: 20.10.2016).
31. ÖLVECKÝ T. N-Gram Based Statistics Aimed at Language Identification / Konferencia IIT.SRC 2005, Bratislava.
32. PADRO M., PADRO Ll. Comparing methods for language identification. URL: http://www.sepln.org/revistaSEPLN/revista/33/33-Pag155.pdf (дата обращения: 20.10.2016).
33. ROMSDORFER, H., PFISTER, B. (2007). Text analysis and language identification for polyglot text-to-speech synthesis. Speech Communication 49, 697-724.
34. TIMOTHY J. Hazen Automatic Language Identification Using a Segmen t-Based Approach / S.B., Massachusetts Institute of Technology, 1991.
35. VOJTEK P., BIELIKOVA M. Comparing Natural Language Identification Methods based on Markov Processes.
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.