Google simplemente dio a los modelos de lenguaje una memoria a largo plazo real. Una nueva arquitectura aprende durante la inferencia y mantiene el contexto entre millones de tokens. Tiene una precisión de ~70 por ciento con 10 millones de tokens. Esta arquitectura aprende mientras se ejecuta Titans añade una memoria neural a largo plazo que se actualiza durante la generación. No pesas. No reentrenamiento. Aprendizaje en vivo. • Una red neuronal pequeña almacena contexto a largo plazo • Solo se actualiza cuando aparece algo inesperado • Se ignoran fichas rutinarias para mantenerse rápidas Esto permite al modelo recordar datos de textos mucho anteriores sin volver a escanearlo todo. Mantiene la velocidad mientras escala el contexto La atención sigue local. La memoria se encarga del pasado. • Coste de inferencia lineal • No hay explosiones de atención cuadrática • Precisión estable superior a dos millones de tokens Te permite crear nuevos tipos de aplicaciones Puedes procesar libros completos, registros o genomas en una sola pasada. Puedes mantener el estado durante sesiones largas. Puedes dejar de hacer chuches de contexto solo para sobrevivir a los límites.