Функция распознавания объектов в видеопоисках работает на основе алгоритмов, основанных на технологиях AI и Computer Vision. developers.sber.ru Процесс включает несколько этапов: developers.sber.ru
- Обнаружение объектов. developers.sber.ru Для этого используется нейросеть-детектор, которая разбивает общую картину на отдельные образы. developers.sber.ru После того как все объекты найдены, им присваивается какой-то класс. developers.sber.ru Например, модель может различить одежду или мебель на видео. developers.sber.ru
- Отслеживание между кадрами. developers.sber.ru Это нужно, чтобы не приходилось распознавать объект снова и снова. developers.sber.ru Для отслеживания используются специальные нейронные сети, которые присваивают объекту идентификатор и «следят» за ним между кадрами. developers.sber.ru
- Распознавание объекта. developers.sber.ru Информация о нём передаётся в нейросеть-энкодер, которая распознаёт изображение и ищет в базе аналоги. developers.sber.ru Сеть работает не с самими изображениями, а с их эмбеддингами — картинками, преобразованными в ряд чисел по определённому правилу. developers.sber.ru Сравнивая эти ряды чисел между собой, модель понимает степень похожести изображений — распознаваемого и из базы. developers.sber.ru
Например, сервис Google Cloud Video Intelligence позволяет распознавать любой видеоконтент по его содержимому, чтобы впоследствии вести эффективный поиск по соответствующим запросам. www.techcult.ru