Tutti presumono che la memoria di ChatGPT sia un sistema RAG sofisticato con database vettoriali e ricerca semantica. Manthan l'ha ingegnerizzato a ritroso. L'architettura reale è quasi deludentemente semplice: metadati di sessione che scadono, fatti espliciti memorizzati come testo, riassunti di chat leggeri e una finestra mobile. Nessun embedding. Nessuna ricerca di similarità. Nessun recupero su larga scala. La parte interessante? Questo spiega perché sembra così veloce. I sistemi RAG tradizionali incorporano ogni messaggio, eseguono ricerche di similarità su ogni query, estraggono contesti completi. ChatGPT inietta semplicemente riassunti pre-calcolati direttamente. Stanno scambiando un contesto storico dettagliato per la latenza. Questa è la stessa lezione che continua a emergere nell'infrastruttura AI: quando controlli l'intero stack, la semplicità curata spesso supera la complessità sofisticata. OpenAI non ha bisogno di costruire un sistema di recupero generale. Hanno solo bisogno di uno che funzioni per ChatGPT. L'architettura a quattro livelli (metadati di sessione → fatti memorizzati → riassunti di conversazione → finestra mobile) è fondamentalmente una gerarchia di memoria artigianale. Ogni livello ha una persistenza e scopi diversi. I metadati di sessione si adattano in tempo reale. I fatti persistono per sempre. I riassunti forniscono continuità. La finestra mantiene la coerenza. Il sistema di memoria di Anthropic utilizza uno schema simile. I modelli che sembrano più personali non sono quelli con il recupero più sofisticato. Sono quelli che memorizzano le cose giuste e le iniettano al momento giusto.