Для подготовки массива данных из разнородных количественных и качественных характеристик объекта исследования можно предпринять следующие шаги:
- Очистка данных. 3 Необходимо оценить достоверность информации, выявить и исправить ошибки: аномалии, дубликаты, противоречия и т. п.. 3
- Предобработка данных. 3 Нужно подготовить данные к решению конкретной аналитической задачи и привести их в соответствие с требованиями, определяемыми спецификой этой задачи и способами её решения. 3 Например, понизить размерность исходной информации, устранить незначащие признаки. 3
- Обогащение данных. 3 Нужно насытить данные новой информацией, чтобы сделать их более ценными для определённой аналитической задачи. 3 Например, привлечь информацию из дополнительных источников, заполнить пропуски в информации, выявить связи между объектами. 3
- Преобразование в оптимальный набор данных. 4 Обычно его оформляют в виде таблиц. 4
Для обработки данных можно использовать, например, библиотеку Pandas для языка программирования Python. 5