Inworld TTS 1 Max je novým lídrem v žebříčku Artificial Analysis Speech Arena, který překonal řadu Speech-02 společnosti MiniMax a řadu TTS-1 společnosti OpenAI Aréna umělé analýzy řeči řadí přední modely převodu textu na řeč na základě lidských preferencí. V aréně uživatelé porovnávají dvě části generované řeči vedle sebe a vybírají si preferovaný výstup, aniž by věděli, které modely je vytvořily. Řečová aréna zahrnuje výzvy ve čtyřech kategoriích výzev v reálném světě: Služby zákazníkům, Sdílení znalostí, Digitální asistenti a Zábava. Inworld TTS 1 Max a Inworld TTS 1 podporují 12 jazyků včetně angličtiny, španělštiny, francouzštiny, korejštiny a čínštiny a klonování hlasu od 2 do 15 sekund zvuku. Inworld TTS 1 zpracovává v průměru ~153 znaků za sekundu generačního času, přičemž větší model, Inworld TTS 1 Max, zpracovává v průměru ~69 znaků. Oba modely také podporují hlasové záznamy, které uživatelům umožňují přidat emoce, styl podání a neverbální zvuky, jako je "šeptání", "kašel" a "překvapení". TTS-1 i TTS-1-Max jsou autoregresní modely založené na transformátorech, které využívají LLaMA-3.2-1B a LLaMA-3.1-8B jako své páteře SpeechLM. Podívejte se na přední modelky v aréně řeči a poslechněte si ukázkové klipy níže 🎧
Ukázková výzva na Inworld TTS 1 Max: "Váš střevní mikrobiom obsahuje biliony bakterií, které ovlivňují trávení, imunitu a dokonce i duševní zdraví prostřednictvím osy střevo-mozek."
Inworld TTS 1 zpracovává v průměru ~153 znaků za sekundu generačního času, zatímco Inworld TTS 1 Max zpracovává v průměru ~69 znaků.
40,42K