ВАЖНОСТЬ ВЫБОРА ОСНОВНОГО ИДЕНТИФИКАЦИОННОГО ПРИНЦИПА ПРИ ПРОЕКТИРОВАНИИ ЯЗЫКОВЫХ ОПРЕДЕЛИТЕЛЕЙ
Аннотация
В статье приводятся результаты сравнительного исследования разнотипных программ определения языковой принадлежности текста, в основу алгоритмов которых заложены различные способы идентификации, с целью выявления зависимости их характерных особенностей от выбранных идентификационных принципов. Приведённые материалы наглядно демонстрируют причины общности преимуществ и недостатков рассмотренных решений проблемы определения языковой принадлежности информации.
Литература
2. Калегин С.Н. Способы определения языковой принадлежности неструктурированного текста в мультиязычной информационной среде. / Международная конференция «CONCORT-2016», Нижний Новгород, 2016.
3. Автоматический определитель языка текста [Электронный ресурс]. URL: “Guesser.ru” http://guesser.ru/.
4. Automatic language identifier (Автоматический определитель языка) [Электронный ресурс]. URL: http://labs.translated.net/.
5. Автоматический определитель языка текста Полиглот 3000 (П3000) [Электронный ресурс]. URL: http://www.polyglot3000.com/.
6. Программа TextCat [Электронный ресурс]. URL: http://odur.let.rug.nl/~vannoord/TextCat/.
7. Language Identifier by Henrik Falck [Электронный ресурс]. URL: http://whatlanguageisthis.com/.
8. SILC RALI [Электронный ресурс]. URL: http://rali.iro.umontreal.ca/rali/.
9. Автоматический определитель языка Talenknobbel [Электронный ресурс]. URL: http://www.fuzzums.nl/~joost/talenknobbel/
10. Лозовюк А. PHPLangautodetect [Электронный ресурс]. [Электронный ресурс]. URL: http://abrdev.com/; сайт проекта: http://code.google.com/p/phplangautodetect/.
11. MS BingTranslator [Электронный ресурс]. URL: http://www.microsofttranslator.com/.
12. Open Xerox Language Identifier [Электронный ресурс]. URL: http://open.xerox.com/Services/LanguageIdentifier/
13. EUreka ENgine [Электронный ресурс]. URL: http://eurekaengine.ru/, http://palitrumlab.ru/products.
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.