ReLU (Rectified Linear Unit, блок линейного выпрямления) стала популярной в глубоких нейронных сетях по нескольким причинам:
- Простота и эффективность. 4 ReLU совершает простую математическую операцию max(0, x), что приводит к быстрым вычислениям. 4
- Решение проблемы исчезающего градиента. 4 В глубоких сетях градиенты могут стать очень маленькими, что мешает обучению сети. 4 ReLU помогает решить эту проблему. 4
- Отсутствие проблемы насыщения для положительных значений. 3 Это свойство ускоряет сходимость обучения. 3
По состоянию на 2017 год ReLU и её модификации (Noisy ReLU, Leaky ReLU и другие) были наиболее часто используемыми функциями активации в глубоких нейросетях, в частности, в свёрточных. 1