O cara que inventou a arquitetura de chip dentro de 99% de todos os processadores diz que as GPUs da NVIDIA são construídas completamente erradas para esta era de IA… Seu argumento: as GPUs foram projetadas para treinamento. Mas a inferência, onde todo o dinheiro é feito, é um problema fundamentalmente diferente. É limitado por memória e sequencial. E nenhum chip foi projetado especificamente para isso. Cada GPU e TPU usada para inferência hoje é apenas um chip de treinamento reduzido. O verdadeiro gargalo é a memória. E cada tendência que a indústria está mais empolgada (MoE, raciocínio, longo contexto, multimodal) torna o problema da memória pior. O próximo ciclo de hardware de mais de $100B será vencido por quem resolver primeiro a parede da memória.