Ложная корреляция — это статистическая аномалия, когда две переменные показывают согласованные изменения, но в реальности между ними нет ни прямой, ни косвенной связи. dzen.ru
Некоторые причины возникновения ложной корреляции:
- Случайное совпадение. dzen.ru Если анализировать тысячи рандомных переменных, среди них почти наверняка найдутся пары, показывающие высокую ложную корреляцию. dzen.ru
- Общий тренд. dzen.ru Две переменные могут показывать рост или спад синхронно просто потому, что обе вписываются в общий временной тренд. dzen.ru
- Маленький объём данных. www.b17.ru Когда есть ограниченное количество данных, склонны видеть взаимосвязи там, где их на самом деле нет. www.b17.ru
- Предвзятость и ожидания. www.b17.ru Если верить, что два события должны быть связаны, можно увидеть взаимосвязь там, где её на самом деле нет. www.b17.ru
Чтобы понять, что корреляция не ложная, нужно протестировать её на разных выборках и временных промежутках: если корреляция сохраняется в разных наборах данных и периодах времени, вероятность того, что она случайная, значительно снижается. dzen.ru