Nu mai irosi sute de gigabytes pe căutare vectorială. O nouă configurație de recuperare reduce memoria cu 32x și viteza cu ~25x. Face acest lucru separând căutarea candidaților de scor. Împarte căutarea în doi pași ieftini În primul rând, înlocuiește încorporațiile fp32 cu un indice binar. Vectorii binari sunt de 32 de ori mai mici. Doar acest index rămâne în memorie. Asta face ca căutarea inițială să fie rapidă și ieftină. La final se plătește doar pentru acuratețe. După recuperare, a reschierat un set mic de candidate folosind embedding-uri int8. Fluxul: • Căutare binară pe mai multe documente • Să ia candidații de top • Rescore ~40 dintre ele cu int8 Aceasta recuperează ~99% din calitatea fp32.