Некоторые ловушки и подводные камни, с которыми может столкнуться начинающий датасаентист в работе:
- Неожиданные изменения данных в источниках. 1 В большинстве случаев отсутствует контроль версий данных, и изменения происходят без уведомления пользователя. 1
- Отсутствие документации. 1 Наименования столбцов в базе данных могут быть нечитаемыми, а их описание — отсутствовать. 1
- Большие объёмы данных. 1 Вычислительные ресурсы не всегда соответствуют тем массивам, с которыми нужно работать. 1 Также можно столкнуться с ограниченной пропускной способностью сети. 1
- Большое количество источников. 1 Информация распределена между различными хранилищами, и необходимо искать способы их агрегации. 1
- Низкое качество данных. 1 К основным проблемам качества можно отнести пропуски, дубликаты, аномально высокие или низкие значения, несоответствие типов данных, нарушение логики. 1
- Сложности в разметке данных. 1 Разметки может просто не быть, особенно часто это встречается в узкоспециализированных областях. 1 Также проведение разметки может требовать привлечения экспертов ввиду особенностей решаемой задачи. 1
Чтобы избежать ловушек и подводных камней, начинающему датасаентисту рекомендуется больше общаться с более опытными коллегами по текущему проекту. 2