Arrêtez de gaspiller des centaines de gigaoctets sur la recherche vectorielle. Une nouvelle configuration de récupération réduit la mémoire de 32x et la vitesse d'environ 25x. Elle le fait en séparant la recherche de candidats de l'évaluation. 𝗜𝘁 𝘀𝗽𝗹𝗶𝘁𝘀 𝘀𝗲𝗮𝗿𝗰𝗵 𝗶𝗻𝘁𝗼 𝘁𝘄𝗼 𝗰𝗵𝗲𝗮𝗽 𝘀𝘁𝗲𝗽𝘀 Tout d'abord, elle remplace les embeddings fp32 par un index binaire. Les vecteurs binaires sont 32x plus petits. Seul cet index reste en mémoire. Cela rend la recherche initiale rapide et peu coûteuse. 𝗜𝘁 𝗼𝗻𝗹𝘆 𝗽𝗮𝘆𝘀 𝗳𝗼𝗿 𝗮𝗰𝗰𝘂𝗿𝗮𝗰𝘆 𝗮𝘁 𝘁𝗵𝗲 𝗲𝗻𝗱 Après la récupération, il réévalue un petit ensemble de candidats en utilisant des embeddings int8. Le flux : • Recherche binaire sur de nombreux documents • Prendre les meilleurs candidats • Réévaluer environ 40 d'entre eux avec int8 Cela récupère environ 99% de la qualité fp32.