Pare de desperdiçar centenas de gigabytes em busca vetorial. Uma nova configuração de recuperação reduz a memória em 32x e a velocidade em ~25x. Isso é feito separando a busca de candidatos da pontuação. 𝗜𝘁 𝘀𝗽𝗹𝗶𝘁𝘀 𝘀𝗲𝗮𝗿𝗰𝗵 𝗶𝗻𝘁𝗼 𝘁𝘄𝗼 𝗰𝗵𝗲𝗮𝗽 𝘀𝘁𝗲𝗽𝘀 Primeiro, substitui embeddings fp32 por um índice binário. Vetores binários são 32x menores. Apenas este índice permanece na memória. Isso torna a busca inicial rápida e barata. 𝗜𝘁 𝗼𝗻𝗹𝘆 𝗽𝗮𝘆𝘀 𝗳𝗼𝗿 𝗮𝗰𝗰𝘂𝗿𝗮𝗰𝘆 𝗮𝘁 𝘁𝗵𝗲 𝗲𝗻𝗱 Após a recuperação, ele reavalia um pequeno conjunto de candidatos usando embeddings int8. O fluxo: • Busca binária sobre muitos documentos • Pegue os principais candidatos • Reavalie ~40 deles com int8 Isso recupera ~99% da qualidade fp32.