Jeśli chcemy modeli, które działają w rzeczywistym świecie, potrzebują danych z rzeczywistego świata. Dziś zespół @psdnai opublikował szczegółową analizę techniczną zestawu danych Poseidon Voice AI. Ponad 33 tys. godzin. 3 tygodnie. Rzeczywisty dźwięk. Języki o niskich zasobach. Prawa zabezpieczone na Story ↴
Poseidon
Poseidon29 sty, 01:30
Przedstawiamy Zbiór Danych Poseidon Voice AI. Ponad 33 tys. godzin audio z prawami autorskimi w językach o niskich zasobach. W kilku językach przekracza to lata zbierania danych publicznych. Poniżej znajduje się techniczna analiza danych ↓
Poseidon priorytetowo traktuje dane wysokiej jakości, a nie tylko ich ilość. Klipsy audio są filtrowane za pomocą Poseidon Score, wskaźnika dokładności semantycznej. Walidowane przez native speakerów. Filtrowane pod kątem warunków rzeczywistych. Niskie zasoby już nie oznaczają niskiej jakości.
7,11K