Chamath: Dois termos que você precisa prestar atenção na IA são Prepreenchimento e Decodificação "Tem dois termos que acho que você vai ouvir muito nos próximos anos." "O primeiro termo é pré-preenchido, e o próximo é decodificação." "O que prepreenchimento e decodificação são duas formas muito distintas de como os modelos pensam e como um modelo passa pelo processo de responder a uma pergunta que você lhe faz." "E então, quando você envia um prompt para a IA, o que acontece é que o modelo processa isso. Isso é chamado de fase de leitura ou pré-preenchimento." "Ele lê todo o seu prompt de uma vez. E então faz um monte de matemática, calcula todas essas relações entre as palavras e as armazena na memória temporária." "O problema é que isso é realmente limitado ao computo. Então isso exige força bruta massiva. E as GPUs Nvidia arrasam aqui." "E a arquitetura deles é projetada para processamento paralelo massivo, o que os torna realmente incríveis em digerir esses prompts longos." "Então o problema só vai crescendo cada vez mais, a Nvidia domina completamente." "Mas a próxima fase, essa fase crítica, a fase de decodificação, é a fase de escrita, certo?" "Então o modelo começa a gerar uma resposta, você faz uma pergunta e a resposta dele, um token de cada vez." "E então, para escolher o próximo token para escolher a próxima palavra, ele precisa olhar tudo o que já disse para não alucinar." "O problema é que isso é extremamente limitado em largura de banda de memória." "E na nossa arquitetura, há muito tempo, tomávamos essas decisões de design desde o primeiro dia." "E o que fizemos foi adotar uma abordagem arquitetônica muito diferente, uma tecnologia de processo muito conservadora. Não estávamos ultrapassando os limites da física." ...