Niedawno @supermemory osiągnął 99% w LongMemEval. Problem polega na tym, że benchmarki pamięci zostały stworzone, gdy LLM miały bardzo małe okno kontekstowe. Na przykład LongMemEval_M to ~1,5M tokenów. Co jest prawie w obrębie okna kontekstowego Opus 4.6. Z tego, co rozumiem, obecny najlepszy benchmark to BEAM z oknem kontekstowym 10M. Dlatego oceniam wszystkie nowe systemy pamięci na podstawie ich wyniku tam. Cieszę się, aby zobaczyć, jak @supermemory wypadnie! Jestem pewien, że poradzi sobie dobrze!