Presentamos Voxtral Transcribe 2, modelos de conversión de voz a texto de nueva generación de @MistralAI. Transcripción de última generación, diarización de hablantes, latencia en tiempo real de menos de 200 ms. Detalles en 🧵
Voxtral Realtime está diseñado para agentes de voz y aplicaciones en vivo. Su arquitectura de transmisión nativa ofrece una latencia configurable a menos de 200 ms. Y a 480 ms, se mantiene dentro del 1-2% de WER de nuestro modelo offline. Publicamos el modelo como pesos abiertos bajo Apache 2.0.
Comienza a experimentar con Voxtral Mini Transcribe 2 en el nuevo espacio de audio de Mistral Studio. Sube archivos, activa la diarización, añade sesgo de contexto y obtén transcripciones instantáneas.
Disponible ahora. Mini Transcribe 2 a través de API a $0.003/min. En tiempo real a través de API a $0.006/min, además de pesos abiertos. Comienza →
62