Алгоритм распознавания изображений в «Яндекс Картинках» работает на основе машинного обучения и компьютерного зрения. vc.ru dzen.ru
Процесс включает несколько этапов: yandex.ru
- Классификатор (глубокая нейронная сеть) отбирает из всех картинок те, на которых изображён текст. yandex.ru Он учится отличать их от прочих на огромной базе изображений. yandex.ru
- Алгоритм находит на отобранных изображениях линии, предположительно содержащие текст. yandex.ru Различать их помогает ещё одна нейронная сеть. yandex.ru
- Алгоритм оставляет только те линии текста, в которых он уверен. yandex.ru
- Модуль распознавания разбивает линии текста на отдельные символы. yandex.ru Для каждого символа алгоритм выбирает несколько наиболее вероятных вариантов распознавания среди известных ему. yandex.ru
- Языковая модель принимает решение, какой из символов-кандидатов подходит лучше всего. yandex.ru Она опирается на словари и учитывает не только сходство символов с теми, что знает система, но и контекст, то есть соседние символы. yandex.ru
Точность распознавания зависит от типа изображения, его чёткости, фона, на котором находится текст, и других факторов. yandex.ru
Чтобы поиск работал хорошо, объект должен занимать больше 10% от всей площади и быть размером минимум 50×50 пикселей. vc.ru