Cartesia právě vydala Sonic-3, svou novou vlajkovou loď mezi modely převodu textu na řeč pro konverzaci v reálném čase Sonic-3 přináší streamování textu na řeč s vestavěnými prozodickými prvky, jako je smích, stejně jako emoce, jako je překvapení a zvědavost. Nový model podporuje 42 jazyků, včetně 9 indických jazyků. Sonic-3 využívá architekturu State Space Model (SSM) jako předchozí vydání Cartesie. Cartesia je lídrem v používání SSM, přičemž jiné modely obvykle používají architektury založené na transformátorech. SSM jsou obecně výpočetně a paměťově efektivnější, což pravděpodobně přispívá k poměrně působivé latenci Sonic-3. Cartesia nabízí cenový model předplatného a kreditů v rozmezí od 0 USD měsíčně pro osobní použití až po 299 USD měsíčně za balíček Scale. Sonic-3 byl přidán do arény umělé analýzy převodu textu na řeč pro slepé preferenční hlasování. Poslechněte si ukázkové klipy níže 🎧