Некоторые методы обхода фильтров в современных системах искусственного интеллекта:
- Автоматический подбор через эволюцию промпта. habr.com Проекты, такие как FreedomGPT и GPT-Patcher, методом проб и ошибок мутируют запрос, пока модель не начнёт выдавать запрещённое. habr.com
- Семантические уязвимости. vc.ru Защитные механизмы часто ориентированы на точное совпадение ключевых слов или шаблонов, а не на анализ семантической структуры и общего намерения. vc.ru Злоумышленники могут обходить такие защиты, изменяя синтаксис или перефразируя запросы. vc.ru
- «Ядовитый контекст». securitymedia.org Атакующий обманывает нейросеть, предоставляя ей контекст, который подавляет её фильтры. securitymedia.org
- Использование редких языков. securitymedia.org Общение с ИИ на таких языках позволяет обходить фильтры и стоп-листы внутри нейросети, потому что они не были туда занесены. securitymedia.org
- ASCII-арт и символьные замены. ithy.com ASCII-арт использует комбинации символов ASCII для создания изображений или текста, который менее распознаваем для фильтров. ithy.com Символьные замены (например, использование «4» вместо «A» или «3» вместо «E») также могут помочь обойти фильтры, которые ищут конкретные слова. ithy.com
- Jailbreak-промпты и персонализация запросов. ithy.com Jailbreak-промпты — специальные инструкции, которые побуждают модель игнорировать встроенные ограничения и действовать более свободно. ithy.com
Важно помнить, что подобные методы могут быть опасны и привести к негативным последствиям. Для обеспечения безопасности ИИ-систем необходимо использовать гибкие многоуровневые фильтры и регулярно проводить стресс-тестирование. vc.ru