Для распознавания голоса в умных колонках используются различные технологии, например:
- Оцифровка. club.dns-shop.ru С микрофона звук идёт в виде аналогового сигнала, а компьютеры с аналоговыми данными работать не умеют. club.dns-shop.ru Для оцифровки используются АЦП — аналого-цифровые преобразователи. club.dns-shop.ru
- Фильтрация. club.dns-shop.ru Заключается в отсеивании всех частот, не относящихся к человеческому голосу. club.dns-shop.ru Это позволяет отсеять 97,5% ненужной информации и ускорить дальнейшую обработку сигнала. club.dns-shop.ru
- Нормализация. club.dns-shop.ru Нужна, чтобы устранить влияние громкости звука на результат. club.dns-shop.ru Слабый сигнал усиливается, а сильный, наоборот, ослабляется. club.dns-shop.ru
- Преобразование Фурье. rozetked.me Превращает звук в набор частот — спектр. rozetked.me
- Мел-спектрограмма. rozetked.me Учитывает особенности человеческого слуха: например, мы хорошо различаем звуки на низких частотах и практически не разбираем на высоких. rozetked.me При использовании таких данных машина работает с теми частотами, которые значимы для человека, поэтому и качество результата выше. rozetked.me
- Анализ нейросетями мел-спектрограммы. rozetked.me Именно её анализируют нейросети для распознавания текста. rozetked.me
Также для распознавания голоса в умных колонках могут использоваться традиционный гибридный метод и сквозной метод. sonix.ai В первом случае объединяются подход, основанный на правилах, и статистический подход, который опирается на закономерности и взаимосвязи, полученные из больших массивов данных транскрибированного аудио. sonix.ai Во втором случае применяются глубокие нейронные сети (DNN) для изучения сложных корреляций между аудиосигналом и транскрипцией. sonix.ai