Presentamos Voxtral Transcribe 2, modelos de voz a texto de nueva generación de @MistralAI. Transcripción de última generación, diarización por altavoces, latencia en tiempo real inferior a 200 ms. Detalles en 🧵
Voxtral Realtime está diseñado para agentes de voz y aplicaciones en vivo. Su arquitectura de streaming nativo ofrece una latencia configurable por debajo de 200 ms. Y a 480 ms, se mantiene dentro del 1-2% de WER de nuestro modelo offline. Lanzamos el modelo como peso abierto bajo Apache 2.0.
Empieza a experimentar con Voxtral Mini Transcribe 2 en el nuevo área de juegos de audio de Mistral Studio. Sube archivos, alterna la diarización, añade sesgo de contexto y consigue transcripciones instantáneas.
Disponible ahora. Mini Transcribe 2 vía API a $0,003/min. Tiempo real vía API a 0,006 $/min, más pesos abiertos. Empieza →
65