Некоторые методы, которые используются для очистки данных в интеллектуальном анализе:
- Удаление дублирующих или не относящихся к делу наблюдений. 1 Это позволяет исключить ненужные данные из набора. 1
- Очистка структуры данных. 1 Например, исправление неправильного написания, заглавных букв и нечёткого именования. 1
- Игнорирование кортежей. 1 Этот метод используется, если кортеж содержит много пропущенных значений и его исправление становится невозможным или нецелесообразным. 1 Он эффективен, когда набор данных большой и удаление некоторых кортежей не влияет на конечный результат. 1
- Заполнение пропущенных значений. 1 Для этого могут использоваться оценки частоты, ручной ввод недостающих данных с использованием предварительных знаний о предметной области или любых других связанных источников, а также расчёт среднего или медианы. 1
- Вычисление частот появления значений. 4 Этот метод устраняет аномалии, пропуски, неправдоподобие данных и опечатки. 4 Для этого подсчитываются частоты появления определённого значения в имеющихся данных. 4
- Применение словаря для исправления опечаток. 2 Для этого нужно заранее собрать все самые частые ошибки и опечатки в текстовых полях. 2 Потом словарь достаточно будет применить к данным, и он автоматически заменит все несоответствия. 2
Для очистки данных в интеллектуальном анализе также могут использоваться специальные инструменты, например, программный комплекс OpenRefine. 3