Алгоритмы машинного обучения для распознавания объектов на видео работают путём создания математической модели с использованием большого количества обучающих данных. 1 Признаки для поиска в визуальных данных задаются вручную, но тому, как их объединять, алгоритм учится сам в процессе обработки помеченных, или аннотированных, обучающих данных. 1
Процесс включает несколько этапов: 2
- Подготовка размеченных данных. 2 Они содержат изображения и соответствующие им классы и границы объектов. 2 Данные могут потребовать предварительной обработки, включая изменение размера, нормализацию и аугментацию. 2
- Использование различных архитектур глубоких моделей. 2 Для детекции объектов применяются, например, Faster R-CNN, SSD (Single Shot MultiBox Detector), YOLO (You Only Look Once) и другие. 2 Каждая архитектура имеет свои особенности и компромиссы в отношении скорости и точности детекции. 2
- Обучение модели. 2 Включает два основных этапа: генерацию пропозалов и классификацию. 2 Генерация пропозалов отвечает за предложение кандидатов на объекты, которые могут быть присутствующими на изображении. 2 Затем классификационная часть модели определяет классы объектов и точно локализует их границы. 2
- Оценка производительности модели. 2 Проводится на тестовом наборе данных. 2 Оцениваются такие метрики, как точность обнаружения, полнота, точность локализации и средняя точная оценка (mAP), которая является общей мерой производительности детектора. 2
Некоторые алгоритмы машинного обучения для распознавания объектов на видео:
- YOLO. 3 Метод идентификации объектов, который позволяет находить множество объектов в видео или изображении за один проход. 3 YOLO работает над разделением изображения на сетку и одновременно предсказывает ограничивающие рамки, вероятности классов и показатели достоверности для каждой ячейки сетки. 3
- Свёрточные нейронные сети (CNN). 15 Используются для распознавания объектов в видеопотоках в реальном времени. 5 В этой системе пирамида изображений строится путём последовательного уменьшения входного видеопотока. 5 Блоки изображений извлекаются из пирамиды изображений и классифицируются ядром CNN. 5 Обнаруженные части затем помечаются на выходных видеокадрах. 5