Na CES 2026, 老黄 apresentou um novo ponto de vista: a nova pressão nos centros de dados, que antes era "insufficient compute", agora se transformou em "insufficient context", afirmando que "O contexto é o novo gargalo — o armazenamento deve ser reestruturado." 1️⃣ O que exatamente se refere a Context aqui? Contexto é um conceito muito central em IA! Para explicar de forma mais simples: O comprimento do contexto é a quantidade total de texto anterior (ou histórico de conversas) que o modelo de IA pode "ver" e considerar ao lidar com sua pergunta atual. Você pode imaginar isso como a "memória de trabalho de curto prazo" do modelo ou o "número de páginas de referência". Suponha que você tenha um professor com memória limitada: Comprimento de contexto curto (como 4K tokens): esse professor só consegue lembrar da conversa dos últimos minutos. Se você de repente perguntar a ele: "O que o autor do livro que discutimos antes escreveu mais?", se ele não tiver essa parte na sua "janela de memória", ele não conseguirá responder. Comprimento de contexto longo (como 128K tokens): esse professor pode lembrar de toda a conversa dos últimos horas ou até dias. Ele pode facilmente revisar detalhes mencionados há muito tempo e, com base nisso, realizar raciocínios e resumos complexos. 2️⃣ Tecnicamente, o comprimento do contexto é geralmente medido em "tokens". Um token é aproximadamente igual a 0,75 palavras em inglês ou um caractere em chinês. 🌟4K tokens: cerca de 3000 palavras em inglês, ou um texto curto. 🌟128K tokens: cerca de 100.000 palavras em inglês, equivalente ao comprimento de um romance de médio porte. 🌟1M tokens: cerca de 750.000 palavras em inglês, equivalente a vários romances longos. 3️⃣ Por que isso é tão importante? O comprimento do contexto determina diretamente a complexidade e a coerência das tarefas que o modelo pode processar: -Processamento de documentos longos: para resumir, analisar ou traduzir um livro de centenas de páginas, é necessário uma janela de contexto super longa. -Diálogos complexos de múltiplas rodadas: em atendimento ao cliente, aconselhamento psicológico ou colaboração criativa complexa, as conversas podem durar dezenas ou até centenas de rodadas. Um contexto longo garante que o modelo não esqueça as configurações e objetivos iniciais, mantendo a consistência e profundidade do diálogo. -A capacidade de "pesquisar uma agulha no palheiro": este é um teste chave para medir a eficácia de modelos de longo contexto. Ou seja, enterrar intencionalmente um fato em um texto de várias dezenas de milhares de palavras, um modelo de longo contexto poderoso pode encontrar a resposta com precisão. -Redução da perda de informação: em um contexto curto, quando novas informações são inseridas, as informações antigas são "expulsas". Isso pode levar o modelo a esquecer, resultando em contradições. Um contexto longo alivia muito esse problema. 4️⃣ Quando o contexto se torna o novo gargalo, que tipo de revolução tecnológica e oportunidades de investimento isso trará? Na verdade, já é muito evidente nos mercados nos últimos dias, tanto a forte SanDisk $SDNK, Micron $MU, Samsung, quanto SK mostraram isso. O novo gargalo tecnológico também trará novas oportunidades. Isso impulsionou a revolução na arquitetura de armazenamento e subsistemas de memória (como memória de alta largura de banda HBM, protocolo CXL, plataforma ICMS da NVIDIA, etc.). 5️⃣ O superciclo de armazenamento pode realmente estar chegando! Essa mudança de lógica fez com que a memória e o armazenamento, que antes eram "coadjuvantes", assumissem o papel principal no ciclo de infraestrutura de IA....