Simt că algoritmul de căutare va fi din nou grozav. Pe măsură ce contextul sau promptul devine mai mare. Cum să reduci corect consumul de token-uri se încadrează cu adevărat la ce provocare și la ce context ar trebui să trimitem. Nu cred că Compress va funcționa atât de bine când ai o bancă de memorie mare. Pentru că 90% din prompt poate tot să nu fie necesar. În loc să trimitem tot contextul/solicitarea, căutăm și deducem întregul context doar pentru informații relevante.