ВАЖНОСТЬ ВЫБОРА ОСНОВНОГО ИДЕНТИФИКАЦИОННОГО ПРИНЦИПА ПРИ ПРОЕКТИРОВАНИИ ЯЗЫКОВЫХ ОПРЕДЕЛИТЕЛЕЙ

  • Сергей Николаевич Калегин Московский научно-исследовательский телевизионный институт http://orcid.org/0000-0003-3540-3902

Аннотация

В статье приводятся результаты сравнительного исследования разнотипных программ определения языковой принадлежности текста, в основу алгоритмов которых заложены различные способы идентификации, с целью выявления зависимости их характерных особенностей от выбранных идентификационных принципов. Приведённые материалы наглядно демонстрируют причины общности преимуществ и недостатков рассмотренных решений проблемы определения языковой принадлежности информации.

Сведения об авторе

Сергей Николаевич Калегин, Московский научно-исследовательский телевизионный институт

аспирант, начальник сектора НТО

Литература

1. Калегин С.Н. Экспериментальное исследование возможности автоматизации процесса языковой идентификации текста. / Международная конференция "CNews FORUM 2016: Информационные технологии завтра", Москва, 2016.
2. Калегин С.Н. Способы определения языковой принадлежности неструктурированного текста в мультиязычной информационной среде. / Международная конференция «CONCORT-2016», Нижний Новгород, 2016.
3. Автоматический определитель языка текста [Электронный ресурс]. URL: “Guesser.ru” http://guesser.ru/.
4. Automatic language identifier (Автоматический определитель языка) [Электронный ресурс]. URL: http://labs.translated.net/.
5. Автоматический определитель языка текста Полиглот 3000 (П3000) [Электронный ресурс]. URL: http://www.polyglot3000.com/.
6. Программа TextCat [Электронный ресурс]. URL: http://odur.let.rug.nl/~vannoord/TextCat/.
7. Language Identifier by Henrik Falck [Электронный ресурс]. URL: http://whatlanguageisthis.com/.
8. SILC RALI [Электронный ресурс]. URL: http://rali.iro.umontreal.ca/rali/.
9. Автоматический определитель языка Talenknobbel [Электронный ресурс]. URL: http://www.fuzzums.nl/~joost/talenknobbel/
10. Лозовюк А. PHPLangautodetect [Электронный ресурс]. [Электронный ресурс]. URL: http://abrdev.com/; сайт проекта: http://code.google.com/p/phplangautodetect/.
11. MS BingTranslator [Электронный ресурс]. URL: http://www.microsofttranslator.com/.
12. Open Xerox Language Identifier [Электронный ресурс]. URL: http://open.xerox.com/Services/LanguageIdentifier/
13. EUreka ENgine [Электронный ресурс]. URL: http://eurekaengine.ru/, http://palitrumlab.ru/products.
Опубликована
2016-11-25
Как цитировать
КАЛЕГИН, Сергей Николаевич. ВАЖНОСТЬ ВЫБОРА ОСНОВНОГО ИДЕНТИФИКАЦИОННОГО ПРИНЦИПА ПРИ ПРОЕКТИРОВАНИИ ЯЗЫКОВЫХ ОПРЕДЕЛИТЕЛЕЙ. Современные информационные технологии и ИТ-образование, [S.l.], v. 12, n. 2, p. 194-204, nov. 2016. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/91>. Дата доступа: 21 nov. 2024