to działało przez cały dzień testuję różne agentowe uprzęże, narzędzia, oceny, pomysły z pamięcią i przeprowadzam automatyczne badania w porównaniu do LongMemEval, aby zobaczyć, czy może stworzyć uprząż, która osiągnie 99%, jak post, który widziałem tutaj kilka dni temu po jednym elemencie na raz. takie fajne!