ReLU (Rectified Linear Unit, блок линейного выпрямления) стала популярной в глубоких нейронных сетях по нескольким причинам:
- Простота и эффективность. habr.com ReLU совершает простую математическую операцию max(0, x), что приводит к быстрым вычислениям. habr.com
- Решение проблемы исчезающего градиента. habr.com В глубоких сетях градиенты могут стать очень маленькими, что мешает обучению сети. habr.com ReLU помогает решить эту проблему. habr.com
- Отсутствие проблемы насыщения для положительных значений. ssl-team.com Это свойство ускоряет сходимость обучения. ssl-team.com
По состоянию на 2017 год ReLU и её модификации (Noisy ReLU, Leaky ReLU и другие) были наиболее часто используемыми функциями активации в глубоких нейросетях, в частности, в свёрточных. ru.wikipedia.org