Presentiamo i migliori modelli di riconoscimento vocale (e aperti) al mondo!
I modelli Voxtral 3B e Voxtral 24B vanno oltre la trascrizione con funzionalità che includono: · Contesto a lungo termine: con una lunghezza di contesto di 32k token, Voxtral gestisce audio fino a 30 minuti per la trascrizione, o 40 minuti per la comprensione · Q&A e sintesi integrate: Supporta la possibilità di porre domande direttamente sul contenuto audio o generare sintesi strutturate, senza la necessità di concatenare modelli ASR e linguistici separati · Nativamente multilingue: Rilevamento automatico della lingua e prestazioni all'avanguardia nelle lingue più utilizzate al mondo (inglese, spagnolo, francese, portoghese, hindi, tedesco, olandese, italiano, per citarne alcune), aiutando i team a servire pubblici globali con un unico sistema · Chiamata di funzioni direttamente dalla voce: Consente di attivare direttamente funzioni di backend, flussi di lavoro o chiamate API basate sulle intenzioni espresse dall'utente, trasformando le interazioni vocali in comandi di sistema azionabili senza passaggi di analisi intermedi. · Altamente capace nella comprensione del testo: Mantiene le capacità di comprensione del testo della sua architettura di modello linguistico, Mistral Small 3.1
486,96K