Pare de desperdiçar centenas de gigabytes com busca vetorial. Um novo sistema de recuperação reduz a memória em 32x e a velocidade em ~25x. Ele faz isso separando a busca de candidatos da pontuação. Ele divide a busca em dois passos baratos Primeiro, ele substitui os embeddings fp32 por um índice binário. Vetores binários são 32 vezes menores. Apenas esse índice permanece na memória. Isso torna a busca inicial rápida e barata. Só paga pela precisão no final Após a recuperação, ele repartiu um pequeno conjunto de candidatos usando embeddings int8. O fluxo: • Busca binária em muitos documentos • Escolher os principais candidatos • Rescore ~40 deles com int8 Isso recupera ~99% da qualidade do fp32.