Несколько эффективных стратегий для идентификации говорящих в шумной среде:
- Экстракция гармонической структуры. 1 Позволяет идентифицировать говорящего по входным речевым сигналам после снижения влияния окружающего шума. 1 Для этого из звуковой смеси извлекают гармонические компоненты речи и синтезируют чистый речевой сигнал с помощью синусоидальной модели. 1
- Надёжное взвешивание кадров. 1 Определяет, насколько каждая рамка синтезированной речи надёжна (то есть мало зависит от окружающего шума) с помощью двух гауссовых моделей смеси для речи и шума. 1 Затем при идентификации придают важность надёжным кадрам. 1
- Использование аудиовизуального разделения речи. 2 Это помогает научиться извлекать аудиопризнаки без шума для идентификации говорящего. 2 При этом речевой сепаратор и модель идентификации совместно оптимизируются. 2
- Применение динамического взвешенного подхода. 2 Позволяет обрабатывать inherent noise в речевых звуках и повышать надёжность аудиопризнаков. 2
Выбор конкретной стратегии зависит от конкретных условий и требований к системе идентификации.