nanochat trainiert jetzt das GPT-2 Fähigkeitsmodell in nur 2 Stunden auf einem einzigen 8XH100-Knoten (von ~3 Stunden vor einem Monat). Wir kommen dem ~interaktiv viel näher! Eine Menge Tuning und Funktionen (fp8) wurden hinzugefügt, aber der größte Unterschied war der Wechsel des Datensatzes von FineWeb-edu zu NVIDIA ClimbMix (gute Arbeit NVIDIA!). Ich hatte Olmo, FineWeb, DCLM ausprobiert, die alle zu Rückschritten führten, ClimbMix hat sofort gut funktioniert (bis zu dem Punkt, dass ich etwas misstrauisch bin wegen des Goodhart-Effekts, obwohl es beim Lesen des Papiers ~ok scheint). In anderen Nachrichten, nachdem ich ein paar Ansätze ausprobiert habe, wie ich die Dinge einrichten kann, habe ich jetzt KI-Agenten, die automatisch an nanochat iterieren, also lasse ich das einfach eine Weile laufen, entspanne mich ein wenig und genieße das Gefühl nach der AGI :). Hier als Beispiel visualisiert: 110 Änderungen wurden in den letzten ~12 Stunden vorgenommen, wodurch der Validierungsverlust bisher von 0.862415 auf 0.858039 für ein d12-Modell gesenkt wurde, ohne dass es Zeit gekostet hat. Der Agent arbeitet an einem Feature-Branch, probiert Ideen aus, fügt sie zusammen, wenn sie funktionieren, und iteriert. Amüsanterweise habe ich in den letzten ~2 Wochen das Gefühl, dass ich mehr an der "Meta-Einrichtung" iteriert habe, wo ich die Agentenflüsse noch mehr optimiere und abstimme als direkt im nanochat-Repo.