Automatisk undersøkelse av minneevaluering for en tilpasset pi-agent, VELDIG kult rammeverk så langt Jeg tester også ut denne /autoresearch Claude kodeferdigheten (lenke i svarene) Tilsynelatende gjør det agenter til den komplette bilforsker-pipelinen Jeg EVALer det mot datasett med ekte minne med ekte agentkjøringer, spesifikt med tanke på hvor godt de kan huske en kodebase vil rapportere resultater
OK, CLAUDE BOI !!
Dette er så kult
877