Некоторые ловушки и подводные камни, с которыми может столкнуться начинающий датасаентист в работе:
- Неожиданные изменения данных в источниках. habr.com В большинстве случаев отсутствует контроль версий данных, и изменения происходят без уведомления пользователя. habr.com
- Отсутствие документации. habr.com Наименования столбцов в базе данных могут быть нечитаемыми, а их описание — отсутствовать. habr.com
- Большие объёмы данных. habr.com Вычислительные ресурсы не всегда соответствуют тем массивам, с которыми нужно работать. habr.com Также можно столкнуться с ограниченной пропускной способностью сети. habr.com
- Большое количество источников. habr.com Информация распределена между различными хранилищами, и необходимо искать способы их агрегации. habr.com
- Низкое качество данных. habr.com К основным проблемам качества можно отнести пропуски, дубликаты, аномально высокие или низкие значения, несоответствие типов данных, нарушение логики. habr.com
- Сложности в разметке данных. habr.com Разметки может просто не быть, особенно часто это встречается в узкоспециализированных областях. habr.com Также проведение разметки может требовать привлечения экспертов ввиду особенностей решаемой задачи. habr.com
Чтобы избежать ловушек и подводных камней, начинающему датасаентисту рекомендуется больше общаться с более опытными коллегами по текущему проекту. yandex.ru