Agora que estou usando o Sonnet 4.5 com Claude Code o dia todo em vários projetos (tanto de back-end quanto de front-end), tenho algumas idéias.
No geral, estou muito impressionado até agora e adoro o quanto posso usar agora em comparação com o uso do Opus 4.1. Além disso...
Cara, o dia do novo modelo é tão emocionante e divertido. Eu me sinto como uma criança em uma loja de doces com 15+ instâncias diferentes do Sonnet 4.5 Claude Code rodando na minha máquina ao mesmo tempo em 6 repositórios diferentes, todos estudando, planejando, consertando, melhorando, polindo e harmonizando meus projetos.
As restrições de energia serão temporárias. Temos muito gás natural nos EUA e a tecnologia de fabricação de turbinas não é um grande segredo como a fabricação de máquinas EUV da ASML. Os mercados são muito bons em resolver esses tipos de problemas mais rápido do que se espera. Lucro.
O $NVDA passo longo é este:
Você tem um espaço finito para um rack - isso é limitado pelas paredes de um DC, mas principalmente pela quantidade de energia disponível.
Nessa pegada, você pode colocar seus próprios chips, NVDA, potencialmente ASICs, mas o objetivo final é servir tokens que você pode vender + um spread.
Nesse TCO há o custo do rack + potência (que ao comparar entre racks, é fixo).
Portanto, a questão é quanto você está pagando pelo rack e quantos tokens ele pode cuspir ao longo de sua vida útil. NVL72 pode fazer 1,5 milhão de tokens/s, @ 0,40c/milhão em tokens de saída. Mesmo que isso seja reduzido em 70% a cada ano, esse rack gerará quase US$ 26 milhões em receita em 3 anos - US$ 4 milhões para o rack, = US$ 22 milhões
O que Jensen está dizendo é que, se você doar os racks, as caixas não terão desempenho suficiente para gerar US $ 22 milhões em rotações de inferência. SE você tivesse pegada ilimitada, talvez pudesse compensar o pior desempenho, juntando mais (que é o que a China está fazendo) e acabar com mais receitas.
Supondo 1) que cada rack seja usado pela demanda simbólica 2) estamos com restrições de energia 3) o preço não pode ser flexionado a um nível que compense o pior desempenho - o NVDA é longo.