ETL-процесс (Extract, Transform, Load) — это процесс извлечения данных из источника, их преобразования и загрузки в целевое хранилище. 5
Процесс состоит из трёх этапов: 1
- Извлечение (Extract). 12 Данные извлекаются из множества источников, таких как базы данных, файлы, CRM- и ERP-системы, API веб-приложений, IoT-датчики и другие платформы. 2 Основная цель этого этапа — собрать данные в их исходном формате, сохранив их целостность и избежав потерь или повреждений. 2
- Преобразование (Transform). 12 Данные очищаются, нормализуются и адаптируются под требования аналитики. 2 Здесь удаляются дубликаты, исправляются ошибки, заполняются пропуски, а также данные приводятся к стандартным единицам измерения. 2 Сложные структуры, такие как иерархические JSON-файлы, разбираются и структурируются, таблицы объединяются через связи, а из отдельных полей извлекается нужная информация. 2
- Загрузка (Load). 13 Подготовленные данные загружаются в новое хранилище и размещаются на своих местах. 3 Кроме самой информации, ETL-система может передавать метаданные — данные о данных, например сведения об их структуре. 3
ETL-процессы используются, когда нужно перенести много разнородных данных: собрать их, привести к единому виду, загрузить в новую систему и сохранить всю информацию по пути. 3