Acabo de echar un vistazo profundo a MiroThinker 1.5, y su método de compresión de agentes es un poco malvado, pero lo entiendo y creo que es realmente útil. El kernel resuelve el problema de "cómo meter 400 usos de herramientas en un contexto de 256K". Hicieron algo extremadamente atrevido: enmascarar físicamente la Observación (la herramienta devuelve el resultado) en la historia de ReAct. Excepto por la reciente ronda K de conservación del texto original, los cientos anteriores de Resultados de Herramientas han sido reemplazados por la frase "Se omite el resultado de la herramienta para guardar fichas". Pero todos se mantienen <thought>intactos. Hay una parte muy contraintuitiva en esto: este agente está haciendo una investigación profunda, así que solo conserva el texto original de la última ronda K, es decir, la quinta, y no hay nadie delante, ¿cómo puede responder a la pregunta? Esto tiene una premisa muy oscura pero crucial: mientras el pensamiento sea lo suficientemente denso, en realidad se aproxima infinitamente al Resumen. Cada generación de Pensamiento es esencialmente un fragmento de información del modelo para la observación actual. Cuando se generó T1, los datos clave en O1 ya habían sido "ingeridos" en el cerebro. Mientras que O1 fue reemplazado por un marcador de posición, T1 permaneció. T1 se convierte en el "paquete de compresión de información" de O1. No es necesario adjuntar un Agente de Resumen adicional, esta cadena completa de Pensamiento es en sí misma un "resumen dinámico" de alta fidelidad que se actualiza de forma incremental.