Se vogliamo modelli che funzionino nel mondo reale, hanno bisogno di dati del mondo reale. Oggi, il team di @psdnai ha pubblicato un'analisi tecnica approfondita sul dataset Poseidon Voice AI. Oltre 33k ore. 3 settimane. Audio del mondo reale. Lingue a bassa risorsa. Diritti autorizzati su Story ↴
Poseidon
Poseidon29 gen, 01:30
Presentiamo il Dataset Poseidon Voice AI. Oltre 33.000 ore di audio con diritti liberati in lingue a bassa risorsa. In diverse lingue, questo supera anni di raccolta di dati pubblici. Di seguito, un'analisi tecnica approfondita sui dati ↓
Poseidon dà priorità a dati di alta qualità, non solo al volume. I clip audio vengono filtrati con il Poseidon Score, un benchmark per l'accuratezza semantica. Validato da madrelingua. Filtrato per condizioni del mondo reale. Basso risorse non significa più bassa qualità.
7,26K