Голосовая поддержка на основе нейросетей работает благодаря технологии Speech-to-Text, которая переводит голос в текст. developers.sber.ru В основе технологии лежит многоуровневый процесс обработки и анализа аудиосодержимого. developers.sber.ru
Процесс включает несколько этапов: developers.sber.ru
- Обучение нейросети. developers.sber.ru Нейросеть обучают на подготовленном датасете, который состоит из аудиозаписей с голосом и размеченным текстом. developers.sber.ru
- Распознавание букв. developers.sber.ru Искусственный интеллект разбивает запись с голосом на короткие отрезки и пытается предсказать по спектрограмме каждой из них, что это за буква. developers.sber.ru При этом нейросеть не выдаёт однозначный результат: она определяет, с какой вероятностью перед ней та или иная буква. developers.sber.ru
- Понимание слов. developers.sber.ru Когда вероятности по каждой букве в записи голоса вычислены, искусственный интеллект пытается понять, какое это слово. developers.sber.ru Для этого есть контекст (словарь), с которым нейросеть проводит сравнение вероятных букв. developers.sber.ru В результате получается набор распознанных слов. developers.sber.ru
- Смысловая обработка. developers.sber.ru Важно, чтобы текст на выходе был связным, осмысленным и правильно оформленным (был поделён на предложения, имел знаки препинания). developers.sber.ru
В процессе общения с голосовым помощником сервис должен: developers.sber.ru
Чем больше образцов человеческой речи (от людей разного пола, возраста, с разными особенностями произношения и интонациями) собрано в датасете, тем точнее нейросеть может распознавать сказанное. www.mtt.ru