A parte que a maioria das pessoas vai ignorar: a NVIDIA acabou de tornar todas as APIs de IA de voz uma mercadoria. A OpenAI cobra $0.06/min de entrada e $0.24/min de saída para a API em tempo real. O Gemini Live cobra 25 tokens/segundo de áudio. Cada startup que constrói agentes de voz está sangrando dinheiro com taxas de API por minuto para executar o que é fundamentalmente um problema de pipeline: ASR → LLM → TTS, três modelos costurados juntos com latência em cada costura. O PersonaPlex substitui todo esse pipeline por um único modelo de 7B. Funciona em um único A100. Pesos abertos, licença MIT, uso comercial permitido. Latência de resposta: 0.170 segundos para troca de turnos, 0.240 segundos para interrupções. Ele pontua mais alto em naturalidade de diálogo do que o Gemini (2.95 vs 2.80 MOS) e lida melhor com interrupções do que todos os sistemas comerciais que eles avaliaram. Isso diz tudo sobre o plano da NVIDIA. Eles não precisam cobrar pelo modelo. Eles precisam que você compre a GPU. Cada empresa que auto-hospeda o PersonaPlex em vez de pagar à OpenAI por minuto é mais uma venda de A100/H100. Cada startup de agente de voz que abandona sua dependência de API é mais um contrato de GPU empresarial. A NVIDIA tornou o anzol de pesca de código aberto porque eles vendem o lago. Construído na arquitetura Moshi da Kyutai, ajustado com menos de 5.000 horas de dados. A margem da IA de voz está migrando da camada de aplicação para a camada de hardware. E a NVIDIA é a única empresa que lucra, não importa qual modelo vença. 330.000 downloads no primeiro mês. Isso é captura de infraestrutura disfarçada de generosidade.