Несколько возможных причин, по которым при обучении нейронной сети функция потерь (убыток) не уменьшалась в первые несколько эпох:
- Ненормализованные входные данные. yandex.ru Также несбалансированность входных данных или слишком много «шума» в датасете могут приводить к долгому поиску глобального экстремума. yandex.ru
- Проблемы с первоначальной инициализацией весов и выбором других гиперпараметров. yandex.ru Плохая инициализация может сразу загнать в локальный минимум или плато, а выбранный алгоритм оптимизации будет долго из него выбираться. yandex.ru Например, малая скорость обучения приведёт к тому, что в первые эпохи обучения прогресс практически не будет виден. yandex.ru
- Неподходящая архитектура или размер сети. yandex.ru Возможно, модель не очень хорошо подходит для решения конкретной задачи. yandex.ru
Для решения проблемы рекомендуется нормализовать входные данные, оптимизировать инициализацию и гиперпараметры, а также при необходимости изменить архитектуру сети yandex.ru www.reg.ru id-lab.ru .