Некоторые технологии, которые помогают обнаруживать синтетический голос в аудиозаписях:
- Изучение воспринимаемых особенностей или паттернов. www.ixbt.com Например, реальные человеческие голоса часто имеют больше пауз и различаются по громкости на протяжении всего клипа, в то время как клонированные голоса более ровные и однообразные. www.ixbt.com
- Спектральный анализ. www.ixbt.com Специальная программа извлекает более 6 000 характеристик из аудиоволн, таких как среднее, стандартное отклонение, коэффициенты регрессии и т. д.. www.ixbt.com Затем программа выбирает 20 самых важных характеристик и сравнивает их с другими аудиоклипами. www.ixbt.com
- Модели глубокого обучения. www.ixbt.com Такие модели принимают на вход сырое аудио и обрабатывают его, извлекая многомерные представления, которые используются для различения реального и «синтетического» аудио. www.ixbt.com
- Анализ фонового шума. rtmtech.ru Аудиозаписи, созданные без использования дипфейк-технологии, часто имеют определённый образец окружающего шума, в то время как дипфейк может демонстрировать несоответствия, поскольку он либо создаются в абсолютно бесшумной среде, либо фоновый шум потом добавляется искусственно. rtmtech.ru
- Анализ метаданных. rtmtech.ru Метаданные спорного файла аудиозаписи могут содержать метки программного редактора. rtmtech.ru
Также для обнаружения синтетических голосов используются нейросети, которые учитывают контекст и знания о голосовых данных, например, сеть Колмогорова-Арнольда (KAN). safe.cnews.ru