Некоторые способы обхода блокировок крупных языковых моделей:
BoN (Best-of-N). www.opennet.ru habr.com Метод позволяет обойти механизмы противодействия генерации опасного контента в AI-сервисах на основе больших языковых моделей. www.opennet.ru habr.com Суть атаки в искажении исходного запроса до такой степени, чтобы на него перестали реагировать механизмы защиты, но продолжала воспринимать смысл базовая модель. www.opennet.ru habr.com Для текстовых запросов алгоритм предполагает внесение случайного шума и изменение регистра символов. www.opennet.ru habr.com Для запросов к моделям, обрабатывающим звуковые данные, искажения вносятся на уровне подмешивания шумов и изменения тональности, скорости и громкости отдельных звуков. www.opennet.ru habr.com Для моделей, способных распознавать текст на изображении, атака проводится через изменение цвета, фона, шрифта, позиции и размера символов. www.opennet.ru habr.com
Использование редких языков. overclockers.ru Исследователи из Брауновского университета в США обнаружили, что при использовании таких языков, как зулусский, гэльский, хмонг и гуарани, защита GPT-4 не срабатывала в 79% случаев. overclockers.ru При использовании английского языка блокировка контента происходила в 99% случаев. overclockers.ru
Bad Likert Judge. www.ixbt.com Исследователи в области кибербезопасности разработали стратегию, которая позволяет обходить системы безопасности больших языковых моделей (LLM) и получать потенциально вредные или злонамеренные ответы. www.ixbt.com Эта техника использует целевую LLM в качестве судьи, который оценивает вредность ответа по шкале Лайкерта. www.ixbt.com
Важно помнить, что подобные методы обхода блокировок могут быть незаконными и привести к юридическим последствиям.
Примеры полезных ответов Поиска с Алисой на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Поиску с Алисой.