Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Inworld TTS 1 Max es el nuevo líder en la tabla de clasificación de Artificial Analysis Speech Arena, superando la serie Speech-02 de MiniMax y la serie TTS-1 de OpenAI El Artificial Analysis Speech Arena clasifica los principales modelos de texto a voz basados en las preferencias humanas. En la arena, los usuarios comparan dos piezas de discurso generadas una al lado de la otra y seleccionan su salida preferida sin saber qué modelos las crearon. El campo del discurso incluye indicaciones en cuatro categorías de indicaciones del mundo real: Servicio al cliente, Intercambio de conocimientos, Asistentes digitales y Entretenimiento. Inworld TTS 1 Max e Inworld TTS 1 admiten 12 idiomas, incluidos inglés, español, francés, coreano y chino, y clonación de voz de 2 a 15 segundos de audio. Inworld TTS 1 procesa ~153 caracteres por segundo de tiempo de generación en promedio, con el modelo más grande, Inworld TTS 1 Max procesando ~69 caracteres en promedio. Ambos modelos también admiten etiquetas de voz, lo que permite a los usuarios agregar emoción, estilo de entrega y sonidos no verbales, como "susurro", "tos" y "sorpresa". Tanto TTS-1 como TTS-1-Max son modelos autorregresivos basados en transformadores que emplean LLaMA-3.2-1B y LLaMA-3.1-8B respectivamente como sus redes troncales SpeechLM. Vea los modelos líderes en el Speech Arena y escuche clips de muestra a continuación 🎧

Ejemplo de aviso en Inworld TTS 1 Max: "Su microbioma intestinal contiene billones de bacterias que influyen en la digestión, la inmunidad e incluso la salud mental a través del eje intestino-cerebro".

Inworld TTS 1 procesa ~153 caracteres por segundo de tiempo de generación en promedio, con Inworld TTS 1 Max procesando ~69 caracteres en promedio.

40.41K

Populares

Ranking

Favoritas