Технология распознавания видеоконтента работает на основе нейронных сетей — сложных математических моделей, имитирующих работу человеческого мозга. telegra.ph Обученная на огромном количестве данных, нейросеть способна находить закономерности, не заметные человеческому глазу. telegra.ph
Процесс распознавания видеоконтента включает несколько этапов: developers.sber.ru
- Обнаружение объектов. developers.sber.ru Для этого используется нейросеть-детектор, который разбивает общую картину на отдельные образы. developers.sber.ru После того как все объекты найдены, им присваивается какой-то класс. developers.sber.ru Например, модель может различить одежду и мебель на видео — это разные классы объектов. developers.sber.ru
- Отслеживание между кадрами. developers.sber.ru Это нужно, чтобы не приходилось распознавать объект снова и снова: это экономит много ресурсов программы по распознаванию. developers.sber.ru Для отслеживания уже обнаруженного графического элемента используются специальные нейронные сети, которые присваивают объекту идентификатор и «следят» за ним между кадрами. developers.sber.ru
- Распознавание объекта. developers.sber.ru После того как программа нашла объект и начала отслеживание, информация о нём передаётся в нейросеть-энкодер, которая распознаёт изображение и ищет в базе аналоги. developers.sber.ru
Сеть, которая находит похожие образы в базе, работает не с самими изображениями, а с их эмбеддингами. developers.sber.ru Эмбеддинг — это картинка, преобразованная в ряд чисел по определённому правилу. developers.sber.ru Сравнивая эти ряды чисел между собой, модель понимает степень похожести изображений — распознаваемого и из базы. developers.sber.ru