Чтобы отличить достоверную информацию от галлюцинаций в ответах больших языковых моделей (LLM), можно использовать метрики, которые количественно оценивают ответы модели. habr.com Некоторые из них:
- Семантическая энтропия. dailyai.com Измеряет неопределённость или противоречивость смысла ответов LLM. dailyai.com Если модель уверена в ответе, её ответы будут иметь схожий смысл, что приведёт к низкому показателю семантической энтропии. dailyai.com Это говорит о том, что LLM чётко и последовательно понимает информацию. dailyai.com Если модель неуверенна или растеряна, её ответы будут иметь более широкий спектр значений, некоторые из которых могут быть непоследовательными или не иметь отношения к вопросу. dailyai.com
- METEOR. habr.com Способна учитывать некоторое семантическое сходство благодаря использованию стемминга (сокращению слова до грамматической основы) и сопоставления синонимов. habr.com
- Question-Answer Score. habr.com Сгенерированный текст разбивается на утверждения, которые затем преобразуются в вопросы с бинарным ответом («да» или «нет»). habr.com
- BERTScore. engineer.yadro.com Метрика была разработана для автоматической оценки качества генерации текста. engineer.yadro.com BERTScore вычисляет сходство предложения-кандидата и эталонного предложения. engineer.yadro.com
Также важно помнить, что ответы LLM не следует принимать за чистую монету. dzen.ru Необходимо проверять корректность и правильность ответа, контролировать и тестировать полученные ответы. dzen.ru