Episódio 1: Nvidia "Adquire" Groq De @vikramskr e @theaustinlyons Principais Conclusões: - GPUs não estão mortas. O HBM não está morto. - LPUs resolvem um problema diferente: inferência determinística, de latência ultra-baixa para modelos pequenos. - Grandes modelos de fronteira ainda exigem sistemas baseados em HBM. - A mudança da Nvidia expande a área de superfície do portfólio de inferências em vez de substituir GPUs. - O futuro da infraestrutura de IA é a otimização específica para carga de trabalho e a implantação impulsionada por TCO. Tópicos-chave: - O que a Nvidia realmente comprou da Groq e por que não é uma aquisição tradicional - Por que o acordo gerou alegações de que GPUs e HBM são obsoletos - Compromissos arquitetônicos entre GPUs, TPUs, XPUs e LPUs - SRAM vs HBM. Velocidade, capacidade, custo e realidades da cadeia de suprimentos - Fundamentos do Groq LPU: VLIW, execução agendada pelo compilador, determinismo, latência ultra-baixa - Por que as LPUs têm dificuldades com modelos grandes e onde elas se destacam em vez disso - Casos práticos de uso para inferência de hiper-baixa latência: -- Personalização de textos de anúncios em orçamentos de latência de busca -- Roteamento de modelos e orquestração de agentes -- Interfaces conversacionais e tradução em tempo real -- Robótica e IA física na borda -- Aplicações potenciais em IA-RAN e infraestrutura de telecomunicações - Memória como espectro de projeto: apenas SRAM, SRAM mais DDR, SRAM mais HBM - A abordagem crescente do portfólio da Nvidia para hardware de inferência, em vez de tamanho único