Ora puoi eseguire un sistema di sintesi vocale di livello produttivo con una latenza inferiore ai 200 ms. Un sistema TTS open-source ha appena rilasciato lo streaming in tempo reale con un'uscita audio di 150 ms. Supporta il voice cloning zero-shot in nove lingue e molti dialetti. 𝗕𝗶-𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗲𝗻𝗮𝗯𝗹𝗲𝘀 𝗿𝗲𝗮𝗹-𝘁𝗶𝗺𝗲 𝘃𝗼𝗶𝗰𝗲 Trasmette il testo mentre l'audio viene riprodotto. Nessun buffering di frasi complete. La latenza rimane bassa senza degradare la qualità audio. Questo si adatta a agenti dal vivo, assistenti e app interattive. • Testo in e audio out funzionano contemporaneamente • La latenza end-to-end raggiunge ~150 ms • Funziona con stack di inferenza GPU standard 𝗭𝗲𝗿𝗼-𝘀𝗵𝗼𝘁 𝘃𝗼𝗶𝗰𝗲 𝗰𝗹𝗼𝗻𝗶𝗻𝗴 𝘄𝗼𝗿𝗸𝘀 𝗮𝗰𝗿𝗼𝘀𝘀 𝗹𝗮𝗻𝗴𝘂𝗮𝗴𝗲𝘀 Clona le voci senza formazione specifica per il parlante. Un breve audio di riferimento è sufficiente. La stessa voce si trasferisce tra lingue e accenti. • Nove lingue principali supportate • La sintesi cross-linguale rimane coerente • La somiglianza del parlante rimane stabile 𝗜𝘁 𝗮𝗱𝗱𝘀 𝗳𝗶𝗻𝗲 𝗰𝗼𝗻𝘁𝗿𝗼𝗹 𝗳𝗼𝗿 𝗽𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻 Puoi controllare pronuncia, velocità, emozione e volume. Numeri e simboli si normalizzano automaticamente. Funziona come servizio o all'interno di contenitori. ...