Для создания аудиодипфейков (синтезированной речи, неотличимой от голоса конкретного человека) используют алгоритмы машинного обучения. www.securitylab.ru
Некоторые технологии, которые применяются:
Генеративно-состязательные сети (GAN). www.securitylab.ru www.kommersant.ru Сеть состоит из двух частей: генератора и дискриминатора. www.kommersant.ru Одна модель генерирует на основе загруженных в неё аудиофайлов новые записи голосов, другая пытается определить, насколько они правдоподобны. www.kommersant.ru
Автокодировщики. www.kaspersky.ru Это тип нейронных сетей, которые сначала сжимают входные данные до компактного внутреннего представления, а затем учатся разжимать их обратно, чтобы восстановить исходные данные. www.kaspersky.ru
Трансформеры нового поколения. www.securitylab.ru Такие решения используют архитектуры, адаптированные с языковых моделей для работы с аудиоданными. www.securitylab.ru Они умеют не просто воспроизводить голос, но и передавать эмоциональную окраску, учитывать контекст, добавлять естественные паузы и характерные особенности речи. www.securitylab.ru
Few-shot learning. www.securitylab.ru Технология позволяет создавать качественные имитации по минимальным образцам. www.securitylab.ru Некоторые системы справляются с задачей, имея в распоряжении буквально несколько секунд оригинальной записи. www.securitylab.ru
Примеры полезных ответов Поиска с Алисой на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Поиску с Алисой.