Некоторые ошибки, которые могут возникнуть при определении уровня статистической значимости:
- Учёт не всех результатов вычислений (p-хакинг). 1 Исследователь может отбросить случаи, когда P-значение не позволяет подтвердить альтернативную гипотезу. 1
- Подгон уровня надёжности. 1 Это позволяет манипулировать результатами проверки гипотез. 1 Например, если после вычислений P-значение получилось 0,08, то при уровне значимости 0,05 гипотеза неверна, но если установить уровень значимости 0,1, то альтернативная гипотеза будет признана корректной. 1
- Использование прошлых данных и полученных ранее результатов. 1 Статистическая значимость или её отсутствие не гарантируют будущие результаты. 1
- Выбор слишком низкого уровня надёжности. 1 Если уровень надёжности поставить чересчур низким, например 0,1, то нулевая гипотеза будет отвергаться чаще, чем она того заслуживает. 1
- Выбор слишком высокого порога для опровержения нулевой гипотезы. 1 Если порог будет слишком высоким, к примеру 0,01, то даже корректную альтернативную гипотезу будет трудно доказать. 1
- Проблема множественного тестирования гипотез. 4 Если в тесте кроме контрольной группы есть несколько экспериментальных, то подведение итогов с уровнем значимости 0,05 приведёт к кратному росту доли ошибок первого рода. 4
- Проблема подглядывания. 4 Значение P-value по ходу теста может случайно опускаться ниже принятого уровня значимости. 4 В такой момент можно ошибочно сделать вывод о статистической значимости. 4