Memperkenalkan model pengenalan ucapan terbaik (dan terbuka) di dunia!
Baik model Voxtral 3B dan Voxtral 24B melampaui transkripsi dengan kemampuan yang meliputi: · Konteks bentuk panjang: dengan panjang konteks token 32k, Voxtral menangani audio hingga 30 menit untuk transkripsi, atau 40 menit untuk pemahaman · Tanya Jawab dan ringkasan bawaan: Mendukung mengajukan pertanyaan secara langsung tentang konten audio atau menghasilkan ringkasan terstruktur, tanpa perlu memisahkan ASR dan model bahasa · Multibahasa asli: Deteksi bahasa otomatis dan performa canggih dalam bahasa yang paling banyak digunakan di dunia (Inggris, Spanyol, Prancis, Portugis, Hindi, Jerman, Belanda, Italia, untuk beberapa nama), membantu tim melayani audiens global dengan satu sistem · Panggilan fungsi langsung dari suara: Memungkinkan pemicu langsung fungsi backend, alur kerja, atau panggilan API berdasarkan maksud pengguna yang diucapkan, mengubah interaksi suara menjadi perintah sistem yang dapat ditindaklanjuti tanpa langkah penguraian perantara. · Sangat mumpuni dalam teks: Mempertahankan kemampuan pemahaman teks dari tulang punggung model bahasanya, Mistral Small 3.1
486,94K