Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A Nvidia está comprando o Groq por dois motivos, na minha opinião.
1) Inferência é desagregar em prepreenchimento e decodificação. Arquiteturas SRAM possuem vantagens únicas na decodificação para cargas de trabalho, onde o desempenho depende principalmente da largura de banda da memória. Rubin CPX, Rubin e a suposta variante "Rubin SRAM" derivada do Groq devem dar à Nvidia a capacidade de misturar e combinar chips para criar o equilíbrio ideal entre desempenho e custo para cada carga de trabalho. O Rubin CPX é otimizado para janelas de contexto massivas durante o preenchimento devido à capacidade de memória super alta com sua DRAM GDDR de largura de banda relativamente baixa. O Rubin é o cavalo de batalha para treinamentos e cargas de inferência em lote de alta densidade, com sua DRAM HBM equilibrando largura de banda e capacidade de memória. A SRAM "Rubin" derivada do Groq é otimizada para cargas de trabalho de inferência por raciocínio agente de latência ultra-baixa devido à largura de banda extremamente alta da SRAM, ao custo de menor capacidade de memória. No último caso, provavelmente será usado CPX ou o Rubin normal para preenchimento.
2) Já está claro há muito tempo que arquiteturas SRAM podem atingir métricas de token por segundo muito mais altas do que GPUs, TPUs ou qualquer ASIC que já vimos. Latência extremamente baixa por usuário individual ao custo do throughput por dólar. Há 18 meses não estava claro se os usuários finais estavam dispostos a pagar por essa velocidade (SRAM mais cara por token devido ao tamanho de lote muito menor). Agora está mais do que claro, pelos resultados recentes da Cerebras e da Groq, que os usuários estão dispostos a pagar pela rapidez.
Isso aumenta minha confiança de que todos os ASICs, exceto TPU, AI5 e Trainium, eventualmente serão cancelados. Boa sorte competindo com as 3 variantes Rubin e múltiplos chips de rede associados. Embora pareça que o ASIC da OpenAI será surpreendentemente bom (muito melhor que os ASICs Meta e Microsoft).
Vamos ver o que a AMD faz. A Intel já está caminhando nessa direção (eles têm um SKU otimizado para preenchimento e compraram a SambaNova, que era a concorrente SRAM mais fraca). Engraçado que a Meta comprou o Rivos.
E a Cerebras, onde sou tendencioso, agora está em uma posição muito interessante e altamente estratégica como a última (segundo conhecimento público) independente de SRAM que ficou à frente da Groq em todos os benchmarks públicos. A arquitetura de rack "muitos chips" da Groq, no entanto, era muito mais fácil de integrar com a pilha de rede da Nvidia e talvez até dentro de um único rack, enquanto o WSE da Cerebras quase precisa ser um rack independente.
Para maior clareza e como alguns já apontaram nas respostas, devo ressaltar que a Nvidia na verdade não está adquirindo o Grok. É um acordo de licenciamento não exclusivo, com alguns engenheiros da Grok se juntando à Nvidia. A Grok continuará operando seu negócio de nuvem como uma empresa independente, que é efetivamente uma concorrente da Nvidia e de seus clientes, seja hyperscaler ou neocloud.
Net, net deve ser ótimo para usuários de IA. Mais competição, mais fichas.
Feliz Natal e Presentes para Todos.
143
Melhores
Classificação
Favoritos
