Использование текстов энциклопедий для искусственных нейронных сетей при обучении и обработке запросов
Аннотация
В статье рассматривается использование текстов интернет-энциклопедий, таких как Википедия и РУВИКИ, для обучения искусственных нейронных сетей (ИНС) класса больших языковых моделей, и обработки ими запросов. Основное внимание уделяется актуальности и качеству обучающих выборок, а также проблемам, связанным с достоверностью и предвзятостью генерируемых ответов.
ИНС, основанные на архитектуре "трансформер", демонстрируют исключительные возможности в различных задачах, связанных с обработкой естественного языка. Однако существует ряд ограничений, включая проблемы с галлюцинациями, когда модели генерируют несуществующие или ложные утверждения. Эти проблемы могут быть обусловлены качеством обучающих выборок, особенностями обучения моделей и обработки запросов.
Энциклопедии, особенно Википедия, широко используются для обучения ИНС благодаря их открытости и структурированности информации. Однако, несмотря на многоязычность и доступность, в статьях Википедии часто присутствует значительный разброс по качеству, что усложняет процесс обучения и повышает риск галлюцинаций. В качестве дополнения существующих обучающих выборок предлагается использование РУВИКИ — новой интернет-энциклопедии на языках народов России, создаваемой с участием экспертов и с фокусом на достоверность информации. Статьи РУВИКИ проходят тщательную проверку и разметку, что способствует улучшению качества обучающих выборок и снижению риска галлюцинаций.
Также упоминаются другие проекты, такие как "Ковчег Знаний" и онлайн-энциклопедия Большой Российской Энциклопедии, которые направлены на создание точных и систематизированных информационных баз.
Подчёркивается важность создания региональных интернет-энциклопедий для повышения качества обучающих выборок и уменьшения юридических рисков при использовании больших языковых моделей. Это позволит улучшить точность и релевантность ответов ИНС, что имеет особое значение для пользователей в различных регионах и на разных языках.
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.