Использование текстов энциклопедий для искусственных нейронных сетей при обучении и обработке запросов

Аннотация

В статье рассматривается использование текстов интернет-энциклопедий, таких как Википедия и РУВИКИ, для обучения искусственных нейронных сетей (ИНС) класса больших языковых моделей, и обработки ими запросов. Основное внимание уделяется актуальности и качеству обучающих выборок, а также проблемам, связанным с достоверностью и предвзятостью генерируемых ответов.
ИНС, основанные на архитектуре "трансформер", демонстрируют исключительные возможности в различных задачах, связанных с обработкой естественного языка. Однако существует ряд ограничений, включая проблемы с галлюцинациями, когда модели генерируют несуществующие или ложные утверждения. Эти проблемы могут быть обусловлены качеством обучающих выборок, особенностями обучения моделей и обработки запросов.
Энциклопедии, особенно Википедия, широко используются для обучения ИНС благодаря их открытости и структурированности информации. Однако, несмотря на многоязычность и доступность, в статьях Википедии часто присутствует значительный разброс по качеству, что усложняет процесс обучения и повышает риск галлюцинаций. В качестве дополнения существующих обучающих выборок предлагается использование РУВИКИ — новой интернет-энциклопедии на языках народов России, создаваемой с участием экспертов и с фокусом на достоверность информации. Статьи РУВИКИ проходят тщательную проверку и разметку, что способствует улучшению качества обучающих выборок и снижению риска галлюцинаций.
Также упоминаются другие проекты, такие как "Ковчег Знаний" и онлайн-энциклопедия Большой Российской Энциклопедии, которые направлены на создание точных и систематизированных информационных баз.
Подчёркивается важность создания региональных интернет-энциклопедий для повышения качества обучающих выборок и уменьшения юридических рисков при использовании больших языковых моделей. Это позволит улучшить точность и релевантность ответов ИНС, что имеет особое значение для пользователей в различных регионах и на разных языках.

Сведения об авторе

Vladimir Vladimirovich Medeyko, АНО "Интернет-Энциклопедия "Рувики"

генеральный директор

Опубликована
2024-07-28
Как цитировать
MEDEYKO, Vladimir Vladimirovich. Использование текстов энциклопедий для искусственных нейронных сетей при обучении и обработке запросов. Современные информационные технологии и ИТ-образование, [S.l.], v. 20, n. 2, july 2024. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/1144>. Дата доступа: 14 feb. 2025
Раздел
ЭНЦИКЛОПЕДИЯ: ВЧЕРА, СЕГОДНЯ, ЗАВТРА