Формула Байеса применяется в системах фильтрации спама для анализа частоты использования определённых слов или фраз как в спамовых, так и в неспамовых электронных письмах. 5
Процесс происходит так: 1
- Фильтр собирает словари «спамных» и «неспамных» слов и словосочетаний. 1 Для каждого употреблённого в письмах слова рассчитывается и сохраняется его «вес» — вероятность того, что сообщение с этим словом — спам. 34
- При получении почты фильтр «взвешивает» каждое письмо, выясняет, сколько в нём содержится «плохих» слов, а сколько — «хороших». 1
- На основании этих расчётов письму выставляется оценка. 1 Например, послание с вероятностью 95% — спам, а письмо с вероятностью 80% — не спам. 1
- Письма, получившие высокую спам-оценку, укладываются в корзину или в специально отведённую папку, а письма с низкой спам-оценкой помещаются в папку входящих. 1
Изначально байесовские фильтры не умеют отсеивать спам, поэтому пользователю приходится самостоятельно указывать: это письмо — спам, а это — не спам. 1 Таким образом фильтр проходит обучение и постепенно, с ростом словарей, начинает эффективно отсеивать невостребованную почту. 1