Несколько причин, по которым ИИ часто придумывает ложные факты и небылицы в генерируемом тексте:
- Предсказательная природа моделей. habr.com ИИ не «знает», а предсказывает следующий токен на основе вероятности. habr.com Иногда с высокой уверенностью выбирается ложная, но «статистически правдоподобная» опция. habr.com
- Отсутствие встроенной верификации. habr.com Модели не проверяют свой ответ по базе знаний или интернету, особенно в офлайн-режиме. habr.com Они не сравнивают возможные варианты на истинность, а просто выбирают «наиболее вероятный ответ». habr.com
- Проблема кросс-загрязнения данных. habr.com В процессе обучения происходит смешение и загрязнение данных: модель не разделяет источники по уровню доверия. habr.com Научная статья и пост в социальной сети могут получить равный вес в параметрах модели, особенно если второй встречается в датасете чаще. habr.com
- Давление на полноту ответа. habr.com При отсутствии точной информации модель всё равно «хочет помочь», особенно если запрос сформулирован уверенно. habr.com Это провоцирует выдумку вместо отказа от ответа. habr.com
- Эффект «каскадных ошибок». habr.com Одна небольшая неточность в начале генерации может спровоцировать лавину последующих ошибок. habr.com Модель, начав с ложного утверждения, «вынуждена» продолжать его развивать для сохранения целостности текста, что приводит к обширным, детализированным, но полностью недостоверным фрагментам. habr.com
Чтобы снизить частоту ошибок, можно использовать, например, проверку фактов вручную, улучшенные промпты и системные инструкции, привязку к проверенным источникам. dzen.ru