Валидация машинного обучения проводится в несколько этапов: 2
- Профилирование на этапе подготовки данных. 2 Проверяется соответствие собранных данных поставленной задаче, а также с помощью простых метрик (например, число пропусков в данных, диапазон значений в разрезе отдельных атрибутов) определяется качество витрины. 2
- Первичная валидация после построения модели. 2 Она проводится, чтобы доказать работоспособность и оценить целесообразность внедрения разработанной модели. 2
- Верификация на этапе внедрения. 2 Подтверждается качество модели на актуальном потоке данных и дополнительно проверяется репрезентативность данных, использованных при разработке модели. 2
- IT-валидация. 2 Аудит набора скриптов с реализацией модели посредством проверки кода на обработку пропусков, дубликатов и других артефактов данных для снижения риска неожиданного поведения модели. 2
- Регулярные проверки на этапе эксплуатации развёрнутой модели. 2 Проводится мониторинг и валидация, чтобы оценить качество модели на разных этапах и уровнях. 2
Некоторые методы валидации машинного обучения:
- Train/Test Split. 3 Набор данных делится на обучающий и тестовый наборы. 3 Модель обучается на обучающем наборе, а затем оценивается на отдельном, невидимом тестовом наборе. 3
- k-Fold Cross-Validation. 3 Набор данных делится на k подмножеств (складок). 3 Модель обучается и оценивается k раз, каждый раз используя другую складку как тестовый набор, а оставшуюся — как обучающий набор. 3 Результаты усредняются, что обеспечивает более надёжную оценку и снижает влияние разделения набора данных. 3
- Leave-One-Out Cross-Validation. 3 Это крайний случай k-Fold Cross-Validation, когда k равняется количеству точек данных. 3 Модель обучается на всех точках данных, кроме одной, и процесс повторяется для каждой точки данных. 3
При валидации используются как количественные, так и качественные тесты. 2 По результатам валидации предоставляется отчёт, в котором указывается перечень тестов, отвечающих за отдельные аспекты качества модели, и результаты каждого теста в отдельности и интегрально по блокам в виде риск-зон. 2 Риск-зоны — это цветовая маркировка результатов тестов, с помощью которой проще оценивать результат всех тестов в совокупности. 2 Красный цвет означает низкое качество модели и высокий риск при её использовании, жёлтый — удовлетворительное качество, зелёный — хорошее качество. 2