Использование текстов энциклопедий для искусственных нейронных сетей при обучении и обработке запросов
Аннотация
В статье рассматривается использование текстов интернет-энциклопедий, таких как Википедия и Рувики, для обучения искусственных нейронных сетей (ИНС) класса больших языковых моделей, и обработки ими запросов. Основное внимание уделяется актуальности и качеству обучающих выборок, а также проблемам, связанным с достоверностью и предвзятостью генерируемых ответов.
ИНС, основанные на архитектуре "трансформер", демонстрируют исключительные возможности в различных задачах, связанных с обработкой естественного языка. Однако существует ряд ограничений, включая проблемы с галлюцинациями, когда модели генерируют несуществующие или ложные утверждения. Эти проблемы могут быть обусловлены качеством обучающих выборок, особенностями обучения моделей и обработки запросов.
Энциклопедии, особенно Википедия, широко используются для обучения ИНС благодаря их открытости и структурированности информации. Однако, несмотря на многоязычность и доступность, в статьях Википедии часто присутствует значительный разброс по качеству, что усложняет процесс обучения и повышает риск галлюцинаций. В качестве дополнения существующих обучающих выборок предлагается использование Рувики — новой интернет-энциклопедии на языках народов России, создаваемой с участием экспертов и с фокусом на достоверность информации. Статьи Рувики проходят тщательную проверку и разметку, что способствует улучшению качества обучающих выборок и снижению риска галлюцинаций.
Также упоминаются другие проекты, такие как "Ковчег Знаний" и онлайн-энциклопедия Большой российской энциклопедии, которые направлены на создание точных и систематизированных информационных баз.
Подчёркивается важность создания региональных интернет-энциклопедий для повышения качества обучающих выборок и уменьшения юридических рисков при использовании больших языковых моделей. Это позволит улучшить точность и релевантность ответов ИНС, что имеет особое значение для пользователей в различных регионах и на разных языках.
Литература
2. Shen Y., et al. ChatGPT and Other Large Language Models Are Double-edged Swords. Radiology. 2023;307(2):e230163. https://doi.org/10.1148/radiol.230163
3. Raiaan M.A.K., et al. A Review on Large Language Models: Architectures, Applications, Taxonomies, Open Issues and Challenges. IEEE Access. 2024;12:26839-26874. https://doi.org/10.1109/ACCESS.2024.3365742
4. Kononov I.A., Petrov V.E. Automation in the tasks of streaming configuration validation. Science Bulletin. 2024;1(6):1438-1443. (In Russ., abstract in Eng.) EDN: QIAHIC
5. Liu Y., et al. Datasets for large language models: A comprehensive survey. arXiv:2402.18041. 2024. https://doi.org/10.48550/arXiv.2402.18041
6. Yao J.Y., et al. LLM Lies: Hallucinations are not Bugs, but Features as Adversarial Examples. In: The Twelfth International Conference on Learning Representations (ICLR 2024). Vienna, Austria; 2024. p. 1-13. Available at: https://openreview.net/forum?id=Rh1aThKliu (accessed 29.04.2024).
7. Huang L., et al. A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. ACM Transactions on Information Systems. 2025;43(2):42. https://doi.org/10.1145/3703155
8. Li J., et al. Banishing LLM Hallucinations Requires Rethinking Generalization. arXiv:2406.17642. 2024. https://doi.org/10.48550/arXiv.2406.17642
9. Akani E., Favre B., Bechet F., Gemignani R. Reducing named entity hallucination risk to ensure faithful summary generation. In: Proceedings of the 16th International Natural Language Generation Conference. Prague, Czechia: Association for Computational Linguistics; 2023. p. 437-442. https://doi.org/10.18653/v1/2023.inlg-main.33
10. Rebuffel C., Roberti M., Soulier L., et al. Controlling hallucinations at word level in data-to-text generation. Data Mining and Knowledge Discovery. 2022;36:318-354. https://doi.org/10.1007/s10618-021-00801-4
11. Liu T., et al. A Token-level Reference-free Hallucination Detection Benchmark for Free-form Text Generation. In: Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Vol. 1: Long Papers. Dublin, Ireland: Association for Computational Linguistics; 2022. p. 6723-6737. https://doi.org/10.18653/v1/2022.acl-long.464
12. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A.N., Polosukhin I., Kaiser Ł. Attention Is All You Need. In: 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA; 2017. p. 1-11. Available at: https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf (accessed 29.04.2024).
13. Yin J., et al. Evaluation of pre-training large language models on leadership-class supercomputers. The Journal of Supercomputing. 2023;79(18):20747-20768. https://doi.org/10.1007/s11227-023-05479-7
14. Rasheed Z., Waseem M., Systä K., Abrahamsson P. Large Language Model Evaluation Via Multi AI Agents: Preliminary results. arXiv:2404.01023. 2024. https://doi.org/10.48550/arXiv.2404.01023
15. Ouyang L., et al. Training language models to follow instructions with human feedback. In: Proceedings of the 36th International Conference on Neural Information Processing Systems (NIPS '22). Red Hook, NY, USA: Curran Associates Inc.; 2022. Article number: 2011. p. 27730-27744. Available at: https://openreview.net/forum?id=TG8KACxEON (accessed 29.04.2024).
16. Zhang Z., Fang M., et al. How Do Large Language Models Capture the Ever-changing World Knowledge? A Review of Recent Advances. In: Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. Singapore: Association for Computational Linguistics; 2023. p. 8289-8311. https://doi.org/10.18653/v1/2023.emnlp-main.516
17. Gao F., et al. Large Language Models on Wikipedia-Style Survey Generation: an Evaluation in NLP Concepts. arXiv:2308.10410. 2024. https://doi.org/10.48550/arXiv.2308.10410
18. McDonald D., Papadopoulos R., Benningfield L. Reducing LLM Hallucination Using Knowledge Distillation: A Case Study with Mistral Large and MMLU Benchmark. TechRxiv. 2024. p. 1-19. https://doi.org/10.36227/techrxiv.171665607.76504195/v1
19. Shumailov I., et al. The Curse of Recursion: Training on Generated Data Makes Models Forget. arXiv:2305.17493. 2024. https://doi.org/10.48550/arXiv.2305.17493
20. Kuznetsov A.V. Digital History and Artificial Intelligence: Perspectives and Risks of Pretrained Language Models. New Information Technologies In Education and Science. 2022;(5):53-57. (In Russ., abstract in Eng.) https://doi.org/10.17853/2587-6910-2022-05-53-57
21. Hu E.J., et al. LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685.2021.https://doi.org/10.48550/arXiv.2106.09685
22. Semnani S.J., et al. WikiChat: Stopping the Hallucination of Large Language Model Chatbots by Few-Shot Grounding on Wikipedia. arXiv:2305.14292. 2023. https://doi.org/10.48550/arXiv.2305.14292
23. Petroni F., et al. Improving Wikipedia verifiability with AI. Nature Machine Intelligence. 2023;5(10):1142-1148. https://doi.org/10.1038/s42256-023-00726-1
24. Kuo T.-S., et al. Wikibench: Community-Driven Data Curation for AI Evaluation on Wikipedia. In: Proceedings of the 2024 CHI Conference on Human Factors in Computing Systems (CHI '24). New York, NY, USA: Association for Computing Machinery; 2024. Article number: 193. https://doi.org/10.1145/3613904.3642278
25. Bakeikin S. Jazykovoe i kul'turnoe raznoobrazie javljaetsja chrezvychajno znachimym aktivom [Linguistic and cultural diversity is an extremely important asset]. Universitas. 2024;(3):68-73. (In Russ., abstract in Eng.) EDN: HVBWKV
26. Goryachko V.V., Bubnov A.S., Rayevskii E.V., et al. Digital Ark of Knowledge. Doklady Mathematics. 2022;106(Suppl 1):S113-S117. https://doi.org/10.1134/S106456242206009

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.