Система распознавания звука в умной колонке работает следующим образом: 1
- Массив микрофонов постоянно ведёт анализ окружающей обстановки. 1 Как только система зарегистрирует какой-то звук, она попытается идентифицировать его. 1
- Большинство моделей, не имеющих нейронного процессора (NPU), отправляют данные на облачный сервис распознавания речи ASR (Automatic Speech Recognition). 1 Там высокопроизводительные серверы распознают запрос, превращая его в текст. 1
- Следующий этап — выделение из полученного текста конкретной команды, то есть из всего набора слов именно то, что необходимо сделать. 1 Слова могут идти в разном порядке, а отдельные — влиять на контекст. 1
- После обработки сервис получает команду в машиночитаемой форме и выполняет её. 1 Это может быть поисковый запрос, включение/отключение какого-либо устройства и так далее. 1
В колонках с NPU процесс отличается тем, что колонка может обрабатывать запросы автономно — без интернета. 1 Для этого инженеры обучают модель нейросети на распознавание речи, но только с меньшим количеством параметров — около 10 миллионов. 1
Все процессы по распознаванию текстов, анализу информации и синтезу речи происходят за доли секунды, так что человеку кажется, будто он разговаривает непосредственно с умной колонкой. 2