Метод аугментации данных в машинном обучении заключается в увеличении выборки данных для обучения через модификацию этих данных и создание на этой основе дополнительных. 5
Применение аугментации позволяет:
- Сделать прогнозы сети более инвариантными к преобразованиям. 1 При этом преобразованные версии объектов помечаются той же самой целевой меткой, что и исходные объекты. 1
- Существенно увеличить размер обучающей выборки и повысить разнообразие обучающих примеров, что улучшит качество настройки модели. 1
Некоторые примеры аугментации данных для разных типов объектов:
- Для изображений: добавление слабого шума к изображению, изменение насыщенности цветов, представление изображения в JPEG-формате с разными уровнями сжатия. 1
- Для текстов: замена текста его переформулировкой, замена случайных слов их синонимами или близкими по смыслу словами, исключение случайных слов из текста. 1
- При анализе речи: обрезка звука, изменение средней высоты всех частот звука либо случайное варьирование каждой частоты в отдельности, ускорение или замедление отдельных временных фрагментов, добавление небольшого шума к звуку. 1
Аугментация данных применяется не только для нейросетей, но и для обычных моделей машинного обучения. 1