Некоторые технологии машинного обучения, которые помогают в обработке голосовых записей:
- Apache Kafka. 1 Распределённая платформа потоковой передачи событий, оптимизированная для приёма и обработки данных в режиме реального времени. 1 В случае масштабной ML-системы распознавания речи данные могут непрерывно генерироваться тысячами источников, которые отправляют записи почти одновременно. 1 Kafka может обрабатывать миллионы сообщений в секунду, что достаточно для обработки аудиозаписей. 1
- Apache Spark. 1 Используется в качестве вычислительного движка распределённой обработки данных, чтобы обрабатывать и очищать большие объёмы аудио, а также сохранять их в корзине облачного объектного хранилища S3. 1
- Метод скрытых моделей Маркова (СММ). 3 Это статистические модели, опирающиеся на скрытые или не наблюдаемые состояния. 3 СММ создаёт граф из связанных фонем, а иногда даже последовательностей слов, который после отображает в гистограмме вероятных результатов. 3
- Искусственные нейронные сети. 4 Они получают на вход фрагменты записей человеческой речи длиной в несколько миллисекунд и определяют, какой звук был произнесён. 4 В подготовленных данных нейронной сети проще находить шаблоны и закономерности, чем в сырых записях человеческой речи. 4