Система распознавания спама в поисковиках работает следующим образом: 1
- Асессоры (специалисты по оценке качества поиска) смотрят, насколько результаты поиска соответствуют запросу, находят среди найденных веб-страниц спам и классифицируют его. 1
- Для каждого типа спама выделяются признаки, по которым можно отличить спам-страницу от качественного документа. 1 Например, таким признаком может быть процент содержания в документе какого-то определённого слова или сочетания слов. 1
- Составляется обучающая выборка для каждого типа спама. 1 В неё входят две группы документов: страницы или сайты с данным видом спама и страницы или сайты, не содержащие спам. 1
- На обучающей выборке и выделенных признаках машина учится находить спам, вычисляя, при каком значении каждого из признаков можно отделить спам от нормальных веб-страниц. 1
- На основе набора признаков и их значений машина составляет алгоритм, позволяющий находить определённый вид спама. 1 Перед внедрением алгоритм проверяется ещё на одной выборке документов. 1
Поисковый спам выявляется тремя способами: 4
- Автоматический. 4 Здесь поисковый спам находят, используя поисковые алгоритмы. 4 С учётом характеристик того или иного вида спама алгоритмы ищут сайты, где используется нечестная оптимизация, и в дальнейшем снижают их позиции в выдаче. 4
- Полуавтоматический. 4 Здесь поисковые алгоритмы ищут прежде всего подозрительные сайты и страницы. 4 Окончательно решает, будет сайт забанен или его позиции снизятся, модератор (асессор) поисковика. 4
- Ручной. 4 В этом случае модератор (асессор) самостоятельно проверяет, использует ли сайт поисковый спам. 4 Основанием для таких проверок обычно служат жалобы от владельцев конкурирующих сайтов. 4