Несколько возможных причин, по которым при обучении нейронной сети функция потерь (убыток) не уменьшалась в первые несколько эпох:
- Ненормализованные входные данные. 1 Также несбалансированность входных данных или слишком много «шума» в датасете могут приводить к долгому поиску глобального экстремума. 1
- Проблемы с первоначальной инициализацией весов и выбором других гиперпараметров. 1 Плохая инициализация может сразу загнать в локальный минимум или плато, а выбранный алгоритм оптимизации будет долго из него выбираться. 1 Например, малая скорость обучения приведёт к тому, что в первые эпохи обучения прогресс практически не будет виден. 1
- Неподходящая архитектура или размер сети. 1 Возможно, модель не очень хорошо подходит для решения конкретной задачи. 1
Для решения проблемы рекомендуется нормализовать входные данные, оптимизировать инициализацию и гиперпараметры, а также при необходимости изменить архитектуру сети 125.