Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

A Nvidia está a comprar a Groq por duas razões, na minha opinião. 1) A inferência está a desagregar-se em pré-preenchimento e decodificação. As arquiteturas SRAM têm vantagens únicas na decodificação para cargas de trabalho onde o desempenho é principalmente uma função da largura de banda da memória. O Rubin CPX, o Rubin e a variante suposta "Rubin SRAM" derivada da Groq devem dar à Nvidia a capacidade de misturar e combinar chips para criar o equilíbrio ideal entre desempenho e custo para cada carga de trabalho. O Rubin CPX é otimizado para janelas de contexto massivas durante o pré-preenchimento, como resultado de uma capacidade de memória super alta com a sua largura de banda relativamente baixa de GDDR DRAM. O Rubin é o cavalo de batalha para treinamento e cargas de trabalho de inferência em lote de alta densidade, com o seu HBM DRAM a equilibrar a largura de banda da memória e a capacidade. A "Rubin SRAM" derivada da Groq é otimizada para cargas de trabalho de inferência de raciocínio agente de ultra-baixa latência, como resultado da largura de banda extremamente alta da memória da SRAM, ao custo de uma menor capacidade de memória. Neste último caso, ou o CPX ou o Rubin normal serão provavelmente usados para o pré-preenchimento. 2) Tem sido claro há muito tempo que as arquiteturas SRAM podem atingir métricas de tokens por segundo muito mais altas do que GPUs, TPUs ou qualquer ASIC que já vimos. Latência extremamente baixa por utilizador individual à custa de rendimento por dólar. Há 18 meses, não estava tão claro se os utilizadores finais estavam dispostos a pagar por esta velocidade (a SRAM é mais cara por token devido a tamanhos de lote muito menores). Agora está abundamente claro, a partir dos resultados recentes da Cerebras e da Groq, que os utilizadores estão dispostos a pagar pela velocidade. Aumenta a minha confiança de que todos os ASICs, exceto TPU, AI5 e Trainium, serão eventualmente cancelados. Boa sorte a competir com as 3 variantes do Rubin e múltiplos chips de rede associados. Embora pareça que o ASIC da OpenAI será surpreendentemente bom (muito melhor do que os ASICs da Meta e da Microsoft). Vamos ver o que a AMD faz. A Intel já está a mover-se nesta direção (tem uma SKU otimizada para pré-preenchimento e comprou a SambaNova, que era o concorrente de SRAM mais fraco). É meio engraçado que a Meta comprou a Rivos. E a Cerebras, onde estou tendencioso, está agora numa posição muito interessante e altamente estratégica como o último (per conhecimento público) jogador independente de SRAM que estava à frente da Groq em todos os benchmarks públicos. No entanto, a arquitetura de rack "muitos chips" da Groq era muito mais fácil de integrar com a pilha de rede da Nvidia e talvez até mesmo dentro de um único rack, enquanto o WSE da Cerebras quase tem que ser um rack independente.

Para maior clareza e como alguns apontaram nas respostas, devo notar que a Nvidia não está realmente adquirindo a Grok. É um acordo de licenciamento não exclusivo com alguns engenheiros da Grok se juntando à Nvidia. A Grok continuará a operar seu negócio de nuvem como uma empresa independente que é efetivamente uma concorrente da Nvidia e de seus clientes, sejam eles hyperscalers ou neocloud. No geral, isso deve ser ótimo para os usuários de IA. Mais concorrência, mais tokens. Feliz Natal e Tokens Para Todos.

134

Top

Classificação

Favoritos