Существуют следующие стадии очистки данных:
- Анализ данных. 12 Подробный анализ данных необходим для выявления подлежащих удалению видов ошибок и несоответствий. 1
- Определение порядка и правил преобразования данных. 12 В зависимости от числа источников данных, степени их неоднородности и загрязнённости, данные могут требовать достаточно обширного преобразования. 1
- Подтверждение. 1 Определяется правильность и эффективность процесса и определений преобразования. 1 Это осуществляется путём тестирования и оценивания, например, на примере или на копии данных источника. 1
- Преобразования. 1 Осуществляется выполнение преобразований либо в процессе загрузки и обновления хранилища данных, либо при ответе на запросы по множеству источников. 1
- Противоток очищенных данных. 1 После того как ошибки отдельного источника удалены, загрязнённые данные в исходных источниках должны замениться на очищенные, чтобы улучшенные данные попали также в унаследованные приложения и в дальнейшем при извлечении не требовали дополнительной очистки. 1
Очистка данных направлена на улучшение их качества, что позволяет повысить точность и эффективность последующего анализа. 4