Некоторые методы обеспечения репрезентативности данных, используемые в машинном обучении:
- Правильный выбор алгоритма сэмплинга. 1 В основе построения репрезентативной выборки лежит выбор подходящего метода. 1
- Нестатистические меры репрезентативности. 1 Для определения того, насколько обучающая или тестовая выборка хорошо представляют исходную совокупность, используются расстояния между векторами наблюдений в пространстве признаков. 1 Например, индекс ближайшего соседа (Nearest Neighbours Index — NNI). 1
- Коррекция выборки. 1 Заключается в замене ранее выбранных объектов совокупности. 1 Это может потребоваться, если в выборке произошло искажение распределения объектов относительно исходной совокупности. 1
- Расширение основы выборки. 1 Позволяет включить в выборку большее разнообразие наблюдений. 1 Основа выборки — это подмножество элементов генеральной совокупности, из которого будет формироваться выборка. 1
- Аугментация. 2 Если размер обучающей выборки не устраивает, а возможности добрать реальных данных нет или это слишком дорого, можно применить аугментацию. 2 Например, для изображений это может быть применение геометрических преобразований, цветовые преобразования (яркость, контрастность, оттенок), добавление бликов, тени, тумана. 2