Система хранения и обработки больших массивов данных в корпоративных информационных системах работает по следующему алгоритму: 4
- Постановка задачи для аналитической программы. 4 Программа осуществляет сбор данных с их параллельной подготовкой (декодировка, отсев мусора, удаление нерелевантной информации). 4
- Выбор алгоритма анализа данных. 4 Для обработки используют различные системы и модели программирования, например MapReduce и рабочие процессы (workflow). 3
- Обучение программы выбранному алгоритму с дальнейшим анализом обнаруженных закономерностей. 4
Для хранения больших данных используют, например:
- Data Warehouse (DWH). 12 Это единое хранилище для всех данных, на основе которых компания формирует отчёты и принимает решения. 1 Файлы в DWH сгруппированы по областям применения и расположены по хронологии. 1
- Data Lake. 14 Это «озёра данных», которые не имеют единого формата и чёткой структуры. 1 Порядок действий здесь такой: извлечение, загрузка в базу и трансформация в формат, который подходит для текущих задач. 1
- Системы управления базами данных (СУБД). 1 Для работы с большими данными чаще используются реляционные СУБД, в которых данные организованы в виде таблиц, связанных между собой ключами. 1
Для обработки больших данных также применяют, например:
- Нейросети. 3 Это математические модели, которые опираются в своей работе на нечёткую логику. 3 Благодаря гибкости они могут адаптироваться к входным данным и вскрывать взаимосвязи, которые аналитики не заметили ранее. 3
- Data Mining. 3 Позволяет в автоматическом режиме находить и подсвечивать взаимосвязи параметров анализируемого процесса или аномалии. 3
- Предиктивная аналитика. 3 Цель этой техники — спрогнозировать развитие текущей ситуации. 3
- Статический анализ. 3 Фокусируется на обработке накопленной информации без её обновления. 3 Используется для выявления отклонений от нормы, взаимосвязи анализируемых данных и процессов. 3