Als we modellen willen die in de echte wereld werken, hebben ze gegevens uit de echte wereld nodig. Vandaag heeft het @psdnai-team een technische diepgaande analyse gepubliceerd over de Poseidon Voice AI-dataset. 33k+ uur. 3 weken. Audio uit de echte wereld. Taal met weinig middelen. Rechten vrijgegeven op Story ↴
Poseidon
Poseidon29 jan, 01:30
Introductie van de Poseidon Voice AI Dataset. 33K+ uur aan rechtenvrije audio in laag-resource talen. In verschillende talen overschrijdt dit jaren van openbare gegevensverzameling. Hieronder een technische diepduik in de gegevens ↓
Poseidon geeft prioriteit aan hoogwaardige data, niet alleen aan volume. Audioclips worden gefilterd met de Poseidon Score, een benchmark voor semantische nauwkeurigheid. Geverifieerd door moedertaalsprekers. Gefilterd voor real-world omstandigheden. Laag-resource betekent niet langer laag-kwaliteit.
7,12K