Принцип работы байесовского классификатора для обработки спама заключается в следующем: 1
- Создание пользовательской базы слов. 1 В неё вносят слова и знаки, содержащиеся в шаблоне спам-сообщения или допустимого сообщения. 1 Для каждого слова или знака присваивают значение вероятности, исходя из подсчёта количества его появлений в спам-сообщениях по сравнению с количеством в допустимых сообщениях. 1
- Проверка вновь пришедшего сообщения. 2 Оно разбивается на слова, самые важные из которых проходят идентификацию. 1 С помощью этих слов байесовский фильтр подсчитывает спам-вероятность нового сообщения. 1
- Отнесение письма к «спаму» или «не-спаму». 2 Это происходит, если усреднённый «вес» всех слов письма превышает планку, заданную пользователем (обычно берут 60–80%). 2
После принятия решения по письму в базе данных обновляются «веса» для вошедших в него слов. 2