Recentemente, @supermemory alcançou 99% no LongMemEval. O problema é que os benchmarks de memória foram criados quando os LLMs tinham uma janela de contexto muito pequena. Por exemplo, o LongMemEval_M é de ~1,5M tokens. O que está quase dentro da janela de contexto do Opus 4.6. Pelo que entendi, o melhor benchmark atual é o BEAM com uma janela de contexto de 10M. Portanto, estou avaliando todos os novos sistemas de memória com base na sua pontuação lá. Estou ansioso para ver como @supermemory vai se sair! Tenho certeza de que vai se sair bem!