Естественный фидбек (обратную связь от людей) используют для улучшения систем машинного обучения с помощью технологии Reinforcement Learning from Human Feedback (RLHF). companies.rbc.ru www.geeksforgeeks.org
Суть технологии: человек (аннотатор) оценивает ответы агента, помечая их как приемлемые или неприемлемые. companies.rbc.ru На основе этой обратной связи агент дообучается. companies.rbc.ru Каждый цикл отзывов от человека оптимизирует модель и её стратегию. companies.rbc.ru
Некоторые области применения RLHF:
- Работа разговорных агентов. companies.rbc.ru Например, в сервисе character.ai пользователи могут оценивать сообщения от агентов и оставлять комментарии. companies.rbc.ru Это помогает агентам создавать качественные саммари текста, а также лучше реагировать на эмоциональные нюансы диалога и точнее подбирать тональность ответов. companies.rbc.ru
- Переводы. companies.rbc.ru Качество переводов у агента, обученного с помощью фидбека от аннотаторов, значительно выше. companies.rbc.ru
- Компьютерное зрение. companies.rbc.ru RLHF в моделях преобразования текста в изображение помогает повысить качество сгенерированных изображений, соответствующих ожиданиям пользователей. companies.rbc.ru
- Разработка игр. companies.rbc.ru Работу игровых ботов оценивают и оптимизируют на основе человеческих оценок, а не традиционных показателей в баллах. companies.rbc.ru
Однако у RLHF есть и недостатки: сбор данных — это дорого и трудоёмко, а также существуют риски манипуляции. companies.rbc.ru