Принцип работы YOLO (You Only Look Once) при распознавании объектов на видео заключается в прямом предсказании ограничивающих рамок и классов объектов за один проход нейронной сети. vk.com
Процесс включает несколько шагов: vk.com
- Разделение изображения. vk.com Входное изображение делится на сетку из ячеек. vk.com Каждая ячейка отвечает за свой участок картинки. timeweb.cloud
- Предсказание для каждой ячейки. vk.com Каждая ячейка предсказывает определённое количество ограничивающих прямоугольных рамок и вероятностей принадлежности объекта в каждой рамке к различным классам. vk.com
- Выбор рамок с высокой вероятностью. vk.com Применяется заранее заданный порог вероятности, чтобы отфильтровать рамки с низкой вероятностью наличия объекта в рамке. vk.com
- Объединение перекрывающихся рамок для одного и того же объекта. vk.com Это происходит с помощью алгоритма Non-Maximum Suppression, который удаляет избыточно перекрывающиеся рамки, оставляя только наиболее подходящую рамку для одного и того же объекта. vk.com
YOLO может иметь сложности с обнаружением маленьких объектов, так как каждая ячейка предсказывает только ограниченное количество рамок. vk.com Также алгоритм испытывает трудности с обнаружением объектов, расположенных очень близко друг к другу, так как они могут попадать в одну и ту же ячейку сетки. vk.com