Механизм RAG (Retrieval-Augmented Generation) в современных языковых моделях работает в два основных этапа: ru.wikipedia.org
- Извлечение релевантных документов или их частей из внешней базы знаний на основе запроса пользователя. ru.wikipedia.org
- Подстановка полученной информации вместе со специальными подсказками, указывающими, как модель должна использовать эти данные, в контекст языковой модели для генерации итогового ответа. ru.wikipedia.org
Типичная схема работы RAG состоит из трёх этапов: vc.ru
- Индексация. vc.ru Документы разбиваются на фрагменты, преобразуются в векторные представления и сохраняются в векторной базе данных. vc.ru
- Извлечение. vc.ru Поиск наиболее релевантных фрагментов по семантической близости к вопросу. vc.ru
- Генерация. vc.ru Формирование ответа LLM на основе объединённого контекста (запроса пользователя и извлечённых данных) с дополнительными инструкциями в промпте. vc.ru
RAG состоит из нескольких ключевых компонентов, каждый из которых играет важную роль в процессе обработки запросов: secrets.tbank.ru
- Базы знаний — проиндексированные источники, по которым составляются ответы. secrets.tbank.ru
- Поиск (retriever) — сервис, отвечающий за поиск релевантных запросу фрагментов. secrets.tbank.ru
- Большая языковая модель (LLM) — отвечает за генерацию ответа как по общим знаниям, так и по найденным фрагментам. secrets.tbank.ru
- Модуль статистики — сервис по обработке полученных результатов, который позволяет оценивать полученные ответы и формировать отчёты по качеству работы нейросети. secrets.tbank.ru