O Google acabou de dar aos modelos de linguagem uma memória real de longo prazo. Uma nova arquitetura aprende durante a inferência e mantém o contexto entre milhões de tokens. Ele possui ~70% de precisão com 10 milhões de tokens. Essa arquitetura aprende enquanto roda Titans adiciona uma memória neural de longo prazo que se atualiza durante a geração. Não pesos. Não requalificação. Aprendizado ao vivo. • Uma pequena rede neural armazena contexto de longo alcance • Só atualiza quando algo inesperado aparece • Tokens rotineiros são ignorados para manter a velocidade Isso permite que o modelo lembre fatos de textos muito anteriores sem escanear tudo novamente. Ela mantém a velocidade enquanto escala o contexto A atenção permanece local. A memória cuida do passado. • Custo de inferência linear • Sem explosões de atenção quadrática • Precisão estável acima de dois milhões de tokens Ele permite que você crie novos tipos de aplicativos Você pode processar livros completos, logs ou genomas em uma única passagem. Você pode manter o estado em sessões longas. Você pode parar de fazer chunking de contexto só para sobreviver aos limites.