Обработка файлов в мессенджерах с использованием голосовых ассистентов, например, GigaChat 2.0 от «Сбера», работает следующим образом: www.comss.ru
- Распознавание аудио. www.comss.ru Модель способна понимать устную речь, акценты, фоновые шумы и даже музыку. www.comss.ru Это позволяет, например, расшифровывать аудиозаписи, извлекать смысловые акценты из записей видеозвонков. www.comss.ru
- Анализ видео и ссылок на материалы. www.comss.ru Модель способна выдать краткое содержание видео или статьи, сравнить несколько источников и даже интерпретировать изображения. www.comss.ru
- Работа с текстовыми документами. www.comss.ru Можно обрабатывать несколько текстовых документов в одном диалоге (до 200 страниц формата А4). www.comss.ru
- Доступ к актуальной информации из интернета. www.comss.ru Ассистент формирует краткие ответы и даёт ссылки на источники. www.comss.ru
- Генерация музыкальных треков и песен. www.comss.ru По запросу можно сгенерировать музыкальные треки и песни длительностью до 3 минут. www.comss.ru
Также есть голосовые ассистенты, которые работают с визуальным контентом, например, DeepSeek в Telegram. vc.ru Бот понимает естественную речь, поддерживает загрузку файлов (PDF, Word, Excel) и работает с изображениями: распознаёт текст на фото и анализирует изображения с описанием объектов. vc.ru