DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Inworld TTS 1 Max è il nuovo leader nella classifica dell'Arte dell'Analisi del Parlato, superando la serie Speech-02 di MiniMax e la serie TTS-1 di OpenAI. L'Arte dell'Analisi del Parlato classifica i principali modelli di Text to Speech in base alle preferenze umane. Nell'arena, gli utenti confrontano due pezzi di parlato generato fianco a fianco e selezionano l'output preferito senza sapere quali modelli li hanno creati. L'arena del parlato include prompt in quattro categorie del mondo reale: Servizio Clienti, Condivisione della Conoscenza, Assistenti Digitali e Intrattenimento. Inworld TTS 1 Max e Inworld TTS 1 supportano entrambi 12 lingue, tra cui inglese, spagnolo, francese, coreano e cinese, e il cloning vocale da 2 a 15 secondi di audio. Inworld TTS 1 elabora in media ~153 caratteri al secondo di tempo di generazione, mentre il modello più grande, Inworld TTS 1 Max, elabora in media ~69 caratteri. Entrambi i modelli supportano anche i tag vocali, consentendo agli utenti di aggiungere emozione, stile di consegna e suoni non verbali, come "sussurrare", "tosse" e "sorpreso". Sia TTS-1 che TTS-1-Max sono modelli autoregressivi basati su transformer che impiegano rispettivamente LLaMA-3.2-1B e LLaMA-3.1-8B come loro spine dorsali SpeechLM. Guarda i modelli leader nell'Arena del Parlato e ascolta i campioni qui sotto 🎧

Esempio di prompt su Inworld TTS 1 Max: “Il tuo microbioma intestinale contiene trilioni di batteri che influenzano la digestione, l'immunità e persino la salute mentale attraverso l'asse intestino-cervello.”

Inworld TTS 1 elabora in media ~153 caratteri al secondo di tempo di generazione, con Inworld TTS 1 Max che elabora in media ~69 caratteri.

40,41K

Principali

Ranking

Preferiti