3 COISAS QUE IMPORTAM SOBRE O ACORDO $NVDA + GROQ 1. Isso tratava-se de possuir a economia da inferência, não de consertar uma lacuna de chip A Nvidia não contratou a Groq por aqui-K porque estava atrasada em chips, já que a Nvidia já domina o treinamento e a maior parte da inferência, e seu roadmap (GB300, Rubin) continua a reduzir o custo por token enquanto expande o desempenho mais rápido do que quase qualquer outro. O treinamento é um evento único, enquanto a inferência é onde reside o novo modelo de negócios de IA, então à medida que a IA avança para produtos reais, o dinheiro passa para quem controla o tempo de execução. 2. O futuro onde a inferência escapa da Nvidia acabou de ser absorvido O Groq foi uma das poucas provas confiáveis de que a inferência sensível à latência poderia eventualmente sair das GPUs e, com o tempo, isso teria desgastado o status de "inevitável" da Nvidia. O risco foi amplificado pelo fundador da Groq, Jonathan Ross, que anteriormente construía TPUs na $GOOGL e já provou que silício personalizado pode competir em cargas de trabalho reais. Esse acordo fecha essa porta antes que ela possa escalar. 3. A inferência determinística era a camada ausente GPUs se destacam em flexibilidade e escala, mas nunca foram projetadas para garantir tempos de resposta perfeitamente consistentes. Isso importa porque a IA do mundo real falha quando a latência treme: assistentes de voz pausam, tradução ao vivo atrasa, fluxos de trabalho agentes acumulam atrasos. A Groq resolveu isso projetando em torno de grandes quantidades de SRAM, mantendo os dados próximos ao processador e entregando respostas rápidas toda vez. Isso tornou o Groq especialmente adequado para IA em tempo real, onde a latência importa mais do que o pico de rendimento. Neste momento, é difícil argumentar que a Nvidia só vende chips quando claramente está construindo a plataforma que é responsável pelo treinamento, networking e agora inferência em tempo real. 20 bilhões hoje para evitar um problema de 200 bilhões depois.