Голосовая поддержка на основе нейросетей работает благодаря технологии Speech-to-Text, которая переводит голос в текст. 2 В основе технологии лежит многоуровневый процесс обработки и анализа аудиосодержимого. 2
Процесс включает несколько этапов: 2
- Обучение нейросети. 2 Нейросеть обучают на подготовленном датасете, который состоит из аудиозаписей с голосом и размеченным текстом. 2
- Распознавание букв. 2 Искусственный интеллект разбивает запись с голосом на короткие отрезки и пытается предсказать по спектрограмме каждой из них, что это за буква. 2 При этом нейросеть не выдаёт однозначный результат: она определяет, с какой вероятностью перед ней та или иная буква. 2
- Понимание слов. 2 Когда вероятности по каждой букве в записи голоса вычислены, искусственный интеллект пытается понять, какое это слово. 2 Для этого есть контекст (словарь), с которым нейросеть проводит сравнение вероятных букв. 2 В результате получается набор распознанных слов. 2
- Смысловая обработка. 2 Важно, чтобы текст на выходе был связным, осмысленным и правильно оформленным (был поделён на предложения, имел знаки препинания). 2
В процессе общения с голосовым помощником сервис должен: 2
- передать аудио с голосом человека на сервер; 2
- в режиме реального времени распознать речь; 2
- понять, в чём именно состоит запрос клиента; 2
- подобрать подходящий ответ на его реплику; 2
- сгенерировать ответ; 2
- синтезировать сообщение для пользователя. 2
Чем больше образцов человеческой речи (от людей разного пола, возраста, с разными особенностями произношения и интонациями) собрано в датасете, тем точнее нейросеть может распознавать сказанное. 1