Folk förstår verkligen inte hur konkurrenskraftigt strategiskt vapen open source har blivit och hur det fungerar. Alfred Marshall skulle vara stolt. Alltid bra att läsa om katedralen och basaren.
Aakash Gupta
Aakash Gupta16 feb. 02:24
Det som de flesta kommer att hoppa över: NVIDIA har precis gjort varje röst-AI-API till en handelsvara. OpenAI tar ut 0,06 dollar/minut inmatning och 0,24 dollar/minut för Realtime API. Gemini Live fakturerar 25 tokens per sekund ljud. Varje startup som bygger röstagenter förlorar pengar på API-avgifter per minut för att driva vad som i grunden är ett pipelineproblem: ASR → LLM → TTS, tre modeller hopsydda med latens i varje söm. PersonaPlex ersätter hela den pipelinen med en 7B-modell. Körs på en enda A100. Öppna vikter, MIT-licens, kommersiell användning tillåten. Svarslatens: 0,170 sekunder för turtagning, 0,240 sekunder för avbrott. Den får högre poäng på dialognaturlighet än Gemini (2,95 mot 2,80 MOS) och hanterar avbrott bättre än alla kommersiella system de testat. Detta berättar allt om NVIDIAs playbook. De behöver inte ta betalt för modellen. De behöver att du köper GPU:n. Varje företag som självhostar PersonaPlex istället för att betala OpenAI per minut är ytterligare en A100/H100-försäljning. Varje röstagent-startup som släpper sitt API-beroende är ett nytt företags-GPU-kontrakt. NVIDIA öppnade fiskespöet eftersom de säljer sjön. Byggt på Moshi-arkitekturen från Kyutai, finjusterat med under 5 000 timmars data. Röst-AI-marginalen migrerar från applikationslagret till hårdvarulagret. Och NVIDIA är det enda företaget som tjänar oavsett vilken modell som vinner. 330 000 nedladdningar under den första månaden. Det är infrastrukturfångst förklädd till generositet.
På lång sikt vill marginalpriset gå mot marginalkostnad. I mjukvara är det 0 dollar.
27