Система обнаружения сгенерированного контента в «Антиплагиате» работает на основе алгоритма, который анализирует текст на наличие фрагментов, предположительно созданных при использовании моделей глубокого обучения GPT2, GPT-3, GPT-4, ChatGPT. 5
Некоторые особенности, по которым система распознаёт сгенерированный текст:
- Синтаксические паттерны. 1 Генераторы текста часто используют предсказуемые синтаксические структуры, которые могут быть распознаны алгоритмами машинного обучения. 1
- Ограниченный лексический диапазон. 1 Хотя генераторы текста могут использовать широкий словарный запас, они склонны повторять определённые фразы и слова. 1
- Семантические несовершенства. 1 Генераторы текста иногда создают контекстно или логически некорректные предложения. 1
- Статистическая схожесть. 1 Сгенерированные тексты могут иметь схожие статистические характеристики (например, частоту определённых слов и фраз) с другими текстами, созданными тем же генератором. 1
Если в проверяемом документе обнаружены сгенерированные фрагменты, система «Антиплагиат» выделяет их, а сам документ маркируется как «Подозрительный». 5