Для распознавания голоса в умных колонках используются различные технологии, например:
- Оцифровка. 3 С микрофона звук идёт в виде аналогового сигнала, а компьютеры с аналоговыми данными работать не умеют. 3 Для оцифровки используются АЦП — аналого-цифровые преобразователи. 3
- Фильтрация. 3 Заключается в отсеивании всех частот, не относящихся к человеческому голосу. 3 Это позволяет отсеять 97,5% ненужной информации и ускорить дальнейшую обработку сигнала. 3
- Нормализация. 3 Нужна, чтобы устранить влияние громкости звука на результат. 3 Слабый сигнал усиливается, а сильный, наоборот, ослабляется. 3
- Преобразование Фурье. 2 Превращает звук в набор частот — спектр. 2
- Мел-спектрограмма. 2 Учитывает особенности человеческого слуха: например, мы хорошо различаем звуки на низких частотах и практически не разбираем на высоких. 2 При использовании таких данных машина работает с теми частотами, которые значимы для человека, поэтому и качество результата выше. 2
- Анализ нейросетями мел-спектрограммы. 2 Именно её анализируют нейросети для распознавания текста. 2
Также для распознавания голоса в умных колонках могут использоваться традиционный гибридный метод и сквозной метод. 1 В первом случае объединяются подход, основанный на правилах, и статистический подход, который опирается на закономерности и взаимосвязи, полученные из больших массивов данных транскрибированного аудио. 1 Во втором случае применяются глубокие нейронные сети (DNN) для изучения сложных корреляций между аудиосигналом и транскрипцией. 1