Presentazione di Eleven v3 (alpha), il modello di sintesi vocale più espressivo di sempre. Supporta 70+ lingue, dialoghi multi-oratore e tag audio come [eccitato], [sospira], [ride] e [sussurra]. Ora in alpha pubblica e scontato dell'80% a giugno.
Questa è un'anteprima della ricerca. Richiede un'ingegneria più rapida rispetto ai modelli precedenti, ma le generazioni sono mozzafiato. Continueremo a mettere a punto per migliorare l'affidabilità e il controllo.
La nuova architettura di Eleven v3 comprende profondamente il testo, offrendo un'espressività molto maggiore. E ora puoi guidare le generazioni in modo più diretto utilizzando i tag audio: - Emozioni [triste] [arrabbiato] [felicemente] - Direzione di consegna [sussurra] [grida] - Reazioni non verbali [ride] [schiarisce la gola] [sospira]
Genera dialoghi multi-oratore che suonano come una vera conversazione. Eleven v3 gestisce le interruzioni, i cambiamenti di tono e i segnali emotivi in base al contesto di conversazione.
L'API pubblica per Eleven v3 (alpha) sarà disponibile a breve. Per l'accesso anticipato, contatta l'ufficio vendite. Stiamo lavorando alla versione in tempo reale della v3. Per i casi d'uso in tempo reale e conversazionali, per il momento consigliamo di utilizzare la versione 2.5 Turbo o Flash.
Creato per creatori e sviluppatori che creano strumenti multimediali. Se stai lavorando su video, audiolibri o strumenti multimediali, la v3 sblocca un nuovo livello di espressività. Scopri come ottenere il massimo da esso con la nostra guida ai suggerimenti:
Eleven v3 (alpha) is available now: It’s 80% off during June. Try it out - and share your best generations with us.
1,41M