Распознавание шёпота представляет собой сложную задачу для голосовых ассистентов по нескольким причинам:
Специфика шёпота. habr.com trashbox.ru В отличие от обычной речи, при шёпоте слова произносятся без использования голосовых связок, что приводит к другому спектру звука. habr.com trashbox.ru
Похожесть шёпота на глухой голос. trashbox.ru Спектры шёпота и глухого голоса (например, как при простуде) очень похожи. trashbox.ru
Вариативность устной речи. tusur.ru Распространённые алгоритмы распознавания речи основаны на обучении на большом количестве примеров произнесённых звуков, слов, словосочетаний. tusur.ru Они не учитывают вариативность окончаний и других особенностей спонтанной устной речи. tusur.ru
Сложности с предобработкой данных. habr.com Например, детектор тишины в речи может не работать на шёпотных гласных: трудно отличить сказанное шёпотом «а!» от обычного громкого вздоха. habr.com
Для решения этих проблем голосовые ассистенты обучают нейросеть распознавать шёпот по звуковому спектру. trashbox.ru
Примеры полезных ответов Поиска с Алисой на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Поиску с Алисой.