Технология разделения текста и фона в DjVu основана на мультимасштабной кластеризации. www.karaush.ru Изображение разбивается на разноразмерные вложенные сетки, в каждой ячейке которых происходит распознавание текстовых и фоновых цветов по максимальным пикам на гистограмме. www.karaush.ru
Отделив текст от фона в самой крупной сетке, алгоритм переходит к уточнению на основе данных из сеток меньшего размера. www.karaush.ru Разработчиками найдено эмпирическое соотношение: цвет, определённый как «текстовый» в наибольшей ячейке, смешивается с «текстовым» цветом в меньшей, вложенной ячейке в пропорции 20% к 80%. www.karaush.ru Результат смешения принимается за цвет текста для расчётов в ещё более мелкой сетке по тому же принципу 20/80. www.karaush.ru
Также для более качественного разделения на текст и фон в DjVu используется алгоритм, который пытается подобрать линейную модель, описывающую фон. github.com Он рассматривает блоки пикселей и оценивает их возможность принадлежать фону. github.com Для этого используется метод наименьших моментов, который подбирает модель для блока пикселей. github.com