Jeder geht davon aus, dass ChatGPTs Gedächtnis ein ausgeklügeltes RAG-System mit Vektordatenbanken und semantischer Suche ist. Manthan hat es rückentwickelt. Die tatsächliche Architektur ist fast enttäuschend einfach: Sitzungsmetadaten, die ablaufen, explizite Fakten, die als Text gespeichert sind, leichte Chat-Zusammenfassungen und ein gleitendes Fenster. Keine Embeddings. Keine Ähnlichkeitssuche. Keine Abfrage im großen Maßstab. Der interessante Teil? Das erklärt, warum es sich so schnell anfühlt. Traditionelle RAG-Systeme betten jede Nachricht ein, führen Ähnlichkeitssuchen für jede Anfrage durch und ziehen vollständige Kontexte heran. ChatGPT injiziert einfach vorab berechnete Zusammenfassungen direkt. Sie tauschen detaillierten historischen Kontext gegen Latenz. Das ist die gleiche Lektion, die immer wieder in der KI-Infrastruktur auftaucht: Wenn man den gesamten Stapel kontrolliert, übertrifft kuratierte Einfachheit oft ausgeklügelte Komplexität. OpenAI muss kein allgemeines Abrufsystem bauen. Sie brauchen nur eines, das für ChatGPT funktioniert. Die vierlagige Architektur (Sitzungsmetadaten → gespeicherte Fakten → Gesprächszusammenfassungen → gleitendes Fenster) ist im Grunde eine handgefertigte Gedächtnishierarchie. Jede Schicht hat unterschiedliche Persistenz und unterschiedliche Zwecke. Sitzungsmetadaten passen sich in Echtzeit an. Fakten bestehen für immer. Zusammenfassungen bieten Kontinuität. Das Fenster erhält die Kohärenz. Das Gedächtnissystem von Anthropic verwendet ein ähnliches Muster. Die Modelle, die sich am persönlichsten anfühlen, sind nicht die mit der ausgeklügeltsten Abruftechnik. Es sind die, die die richtigen Dinge speichern und sie zur richtigen Zeit injizieren.