Система поиска заимствований в современных текстах работает в несколько этапов: 2
- Загрузка документа. 2 Пользователь загружает документ на платформу антиплагиата. 2 Это может быть текстовый файл, PDF или другой формат. 2
- Предварительная обработка. 2 Документ проходит предварительную обработку, в ходе которой текст очищается от лишнего форматирования и разбивается на токены. 2
- Сканирование и разбиение на фрагменты. 2 Алгоритм делит текст на более мелкие фрагменты, чтобы улучшить точность сравнения и ускорить процесс анализа. 2
- Сравнение с базой данных. 2 Каждый фрагмент текста сравнивается с документами в базе данных. 2 Для этого используются как прямые совпадения, так и сложные методы семантического анализа. 2
- Анализ и оценка совпадений. 2 Найденные совпадения анализируются и оцениваются. 2 Алгоритм учитывает различные виды плагиата, включая прямое копирование и перефразирование. 2
- Генерация отчёта. 2 Система формирует отчёт, в котором указываются найденные совпадения, их источники и процент заимствования. 2
Один из распространённых алгоритмов системы поиска заимствований — метод шинглов. 5 Он основан на разбиении текста документа на небольшие перекрывающиеся последовательности слов определённой длины — шинглы (обычно длиной от 4 до 6 слов). 4 Для каждого шингла рассчитывается значение хэш-функции. 4 Затем по индексу находятся документы с наибольшим количеством совпадений по шинглам с проверяемым документом. 4
Также многие сервисы используют помимо метода шинглов дополнительную проверку на уникальность, например, алгоритм лексического совпадения. 5 Этот алгоритм ищет в тексте похожие термины и понятия. 5