Система обучения Алисы с помощью YandexGPT включает несколько этапов: hi-tech.mail.ru
- Подача данных. blog.promopult.ru В нейросеть загружают книги, статьи, сайты и другой полезный контент. blog.promopult.ru Для подбора материала используют поисковые технологии Яндекса. blog.promopult.ru
- Обучение. habr.com Модель заставляют угадывать следующее слово во фрагменте текста на основе всех предыдущих. habr.com Чтобы успешно решать эту задачу, YandexGPT учит структуру языка (части речи, члены предложения, пунктуацию) и факты о мире. habr.com
- Дообучение. blog.promopult.ru Для этого используют технологию краудсорсинга и команду AI-тренеров. blog.promopult.ru Они дообучают YandexGPT на примере десятков тысяч грамотно написанных ответов. blog.promopult.ru
- Доработка. hi-tech.mail.ru Модель дорабатывают таким образом, чтобы она была похожа на живого собеседника. hi-tech.mail.ru
Чтобы научить YandexGPT быть Алисой, собирают датасет с вопросами, например «Как тебя зовут», «Кто тебя создал», «Что ты любишь», и ответами на них. habr.com Для упрощения этого процесса собирают список таких вопросов, генерируют множество других похожих вопросов, пишут подводку, описывающую личность Алисы, и задают сгенерированные вопросы YandexGPT. habr.com
В итоге получают пары вопрос-ответ, из которых формируют новый датасет и дообучают на нём модель. habr.com