Автоматизированные системы обработки большого объёма информации (Big Data) работают по нескольким этапам: 2
- Сбор. 2 Большие данные собирают из разных источников: социальных сетей, статистических данных, медицинских записей, записей с камер наблюдения и других. 2 В процессе сбора данные проходят очистку (Data Cleaning). 2 Специальные программы находят, отбирают и фильтруют информацию, проверяя её на точность и соответствие заданным параметрам. 2
- Хранение. 2 Обычные данные помещаются на одном компьютере или онлайн-диске, но с Big Data так не получится. 2 Их хранят и обрабатывают с помощью облачных серверов и распределённых вычислительных мощностей. 2
- Обработка. 2 Для обработки применяют особое ПО, которое работает по технологии MapReduce. 2 Сначала алгоритм отбирает данные по заданным параметрам, затем распределяет их между отдельными узлами, серверами или компьютерами, а потом они одновременно обрабатывают эти сегменты данных, параллельно друг с другом. 2
Некоторые инструменты для работы с Big Data:
- Инструменты хранения и управления. 4 Это базы данных, в которых хранятся большие объёмы информации, часто в распределённых сетях. 4 Примеры: распределённая файловая система Hadoop (HDFS), базы данных NoSQL, такие как MongoDB и Cassandra. 4
- Инструменты обработки. 4 Их применяют для того, чтобы отсортировать, индексировать и разметить информацию для последующего анализа. 4 Примеры: Apache Airflow и Apache NiFi. 4
- Инструменты анализа данных. 4 Эти решения занимаются непосредственно аналитикой — извлекают ценные сведения из обработанного «сырья». 4 Для этого часто применяют алгоритмы машинного обучения. 4
- Инструменты визуализации. 4 Их используют уже после того, как данные были подготовлены и проведена первичная аналитика. 4 Решения часто представляют собой удобные дашборды, на которых данные представлены в понятном формате: в диаграммах, графиках, в виде информационных панелей. 4
- Инструменты управления и безопасности. 4 Здесь пригодятся специальные инструменты, например Talend и Varonis. 4
- Инструменты для потоковой передачи. 4 Иногда необходимо, чтобы информация обрабатывалась в режиме реального времени и руководитель мог пользоваться мгновенной аналитикой. 4 Примеры: Apache Kafka и Apache Flink. 4