La partie que la plupart des gens vont ignorer : NVIDIA vient de rendre chaque API d'IA vocale une marchandise. OpenAI facture 0,06 $/min pour l'entrée et 0,24 $/min pour la sortie de l'API en temps réel. Gemini Live facture 25 jetons/seconde d'audio. Chaque startup construisant des agents vocaux saigne de l'argent à cause des frais d'API par minute pour faire fonctionner ce qui est fondamentalement un problème de pipeline : ASR → LLM → TTS, trois modèles assemblés avec une latence à chaque couture. PersonaPlex remplace tout ce pipeline par un seul modèle de 7B. Fonctionne sur un seul A100. Poids ouverts, licence MIT, utilisation commerciale autorisée. Latence de réponse : 0,170 secondes pour le tour de parole, 0,240 secondes pour les interruptions. Il obtient un score plus élevé en naturalité de dialogue que Gemini (2,95 contre 2,80 MOS) et gère les interruptions mieux que tous les systèmes commerciaux qu'ils ont évalués. Cela vous dit tout sur le plan de NVIDIA. Ils n'ont pas besoin de facturer pour le modèle. Ils ont besoin que vous achetiez le GPU. Chaque entreprise qui auto-héberge PersonaPlex au lieu de payer OpenAI par minute est une autre vente d'A100/H100. Chaque startup d'agent vocal qui abandonne sa dépendance à l'API est un autre contrat GPU d'entreprise. NVIDIA a open-sourcé la canne à pêche parce qu'ils vendent le lac. Construit sur l'architecture Moshi de Kyutai, affiné avec moins de 5 000 heures de données. La marge de l'IA vocale migre de la couche d'application à la couche matérielle. Et NVIDIA est la seule entreprise qui profite peu importe quel modèle gagne. 330 000 téléchargements dans le premier mois. C'est une capture d'infrastructure déguisée en générosité.