Se quisermos modelos que funcionem no mundo real, eles precisam de dados do mundo real. Hoje, a equipa @psdnai publicou uma análise técnica sobre o conjunto de dados Poseidon Voice AI. Mais de 33 mil horas. 3 semanas. Áudio do mundo real. Línguas de baixo recurso. Direitos autorizados na Story ↴
Poseidon
Poseidon29/01, 01:30
Apresentando o Conjunto de Dados de Voz AI Poseidon. Mais de 33K horas de áudio com direitos liberados em línguas de baixo recurso. Em várias línguas, isso ultrapassa anos de coleta de dados públicos. Abaixo, uma análise técnica detalhada sobre os dados ↓
Poseidon prioriza dados de alta qualidade, não apenas volume. Os clipes de áudio são filtrados com o Poseidon Score, um benchmark para precisão semântica. Validados por falantes nativos. Filtrados para condições do mundo real. Baixos recursos já não significam baixa qualidade.
7,27K