Część, którą większość ludzi pominie: NVIDIA właśnie uczyniła każdy API AI głosowego towarem. OpenAI pobiera 0,06 USD/min za wejście i 0,24 USD/min za wyjście w przypadku Realtime API. Gemini Live nalicza 25 tokenów/sekundę audio. Każdy startup budujący agentów głosowych traci pieniądze na opłatach za API za minutę, aby uruchomić to, co zasadniczo jest problemem rurociągu: ASR → LLM → TTS, trzy modele połączone ze sobą z opóźnieniem w każdym miejscu połączenia. PersonaPlex zastępuje ten cały rurociąg jednym modelem 7B. Działa na pojedynczym A100. Otwarta waga, licencja MIT, dozwolone użycie komercyjne. Opóźnienie odpowiedzi: 0,170 sekundy na wymianę zdań, 0,240 sekundy na przerwania. Uzyskuje wyższe wyniki w naturalności dialogu niż Gemini (2,95 vs 2,80 MOS) i lepiej radzi sobie z przerwaniami niż każdy system komercyjny, który testowali. To mówi wszystko o strategii NVIDIA. Nie muszą pobierać opłat za model. Muszą, abyś kupił GPU. Każda firma, która samodzielnie hostuje PersonaPlex zamiast płacić OpenAI za minutę, to kolejna sprzedaż A100/H100. Każdy startup agenta głosowego, który rezygnuje z zależności od API, to kolejny kontrakt na GPU dla przedsiębiorstw. NVIDIA udostępniła w open source wędkę, ponieważ sprzedają jezioro. Zbudowane na architekturze Moshi z Kyutai, dostosowane z mniej niż 5000 godzin danych. Marża AI głosowego przenosi się z warstwy aplikacji do warstwy sprzętowej. A NVIDIA jest jedyną firmą, która zyskuje niezależnie od tego, który model wygra. 330 000 pobrań w pierwszym miesiącu. To przejęcie infrastruktury przebrane za hojność.