Вопросы к Поиску с Алисой
Функции активации tanh и sigmoid считаются нестабильными для глубоких нейронных сетей из-за проблемы исчезающего градиента. libeldoc.bsuir.by ru.eitca.org
Для сигмоиды проблема заключается в ограниченном диапазоне значимых значений градиента, который находится между -3 и 3. libeldoc.bsuir.by За пределами этого диапазона функция становится более плоской, что приводит к очень маленьким градиентам. libeldoc.bsuir.by Это затрудняет обучение сети, поскольку градиенты приближаются к нулю. libeldoc.bsuir.by
Для tanh проблема исчезающего градиента также возникает за пределами диапазона значимых значений. libeldoc.bsuir.by Хотя функция tanh помогает облегчить эту проблему, она не устраняет её полностью. ru.eitca.org Для очень высоких или очень низких входных значений градиенты всё равно могут стать очень маленькими. ru.eitca.org
Кроме того, выход сигмоиды не центрирован относительно нуля, что влияет на динамику градиентного спуска. datareview.info
Выбор функции активации зависит от множества факторов, включая специфику задачи, архитектуру модели и характеристики данных. zentyx.ru