Acabei de dar uma olhada profunda no MiroThinker 1.5, e o método de compressão de agentes deles é um pouco malvado, mas entendo e acho que é realmente útil. O kernel resolve o problema de "como encaixar 400 usos de ferramentas em um contexto de 256K". Eles fizeram algo extremamente ousado: mascarar fisicamente a Observação (a ferramenta retorna o resultado) em pensamento-ação-observação na história do ReAct. Exceto pela recente rodada K de manutenção do texto original, as centenas anteriores de Resultados da Ferramenta foram todas substituídas pela frase "O resultado da ferramenta é omitido para salvar tokens". Mas todos eles são mantidos <thought>intactos. Há uma parte muito contraintuitiva nisso, esse próprio agente está fazendo uma pesquisa profunda, então ele só mantém o texto original da última rodada K, ou seja, a quinta rodada, e não há ninguém na frente dele, como ele pode responder à pergunta. Isso tem uma premissa muito obscura, mas crucial: enquanto o pensamento for denso o suficiente, ele na verdade está infinitamente aproximando o Resumo. Cada geração de Pensamento é essencialmente uma fatia de informação do modelo para a observação atual. Quando o T1 foi gerado, os dados-chave no O1 já haviam sido "consumidos" pelo cérebro. Enquanto o O1 foi substituído por um provisório, o T1 permaneceu. O T1 se torna o "pacote de compressão de informação" do O1. Não há necessidade de anexar um Agente de Resumo adicional, essa cadeia completa de Pensamentos é um "resumo dinâmico" de alta fidelidade que é constantemente atualizado de forma incremental.