RobustScaler следует использовать вместо StandardScaler, когда в данных есть выбросы (крайние значения). 45
StandardScaler использует завышенные значения среднего и стандартного отклонения, которые увеличиваются из-за выбросов. 4 Это уменьшает относительное расстояние между выбросами и другими точками данных. 4 В результате при наличии выбросов StandardScaler даёт искажённое представление об исходном распределении. 4
RobustScaler не страдает от этого дефекта, так как устойчив к выбросам. 4 Он не приводит данные строго к одному диапазону и не меняет структуру распределения, в частности не изменяет расстояние между основной массой данных и выбросами. 3
Это происходит потому, что усреднение в RobustScaler происходит по разнице между третьим и первым квартилями, то есть робастными статистическими показателями. 3