Deja de desperdiciar cientos de gigabytes en búsqueda vectorial. Una nueva configuración de recuperación reduce la memoria en 32x y la velocidad en ~25x. Esto se logra separando la búsqueda de candidatos de la puntuación. 𝗜𝘁 𝘀𝗽𝗹𝗶𝘁𝘀 𝘀𝗲𝗮𝗿𝗰𝗵 𝗶𝗻𝘁𝗼 𝘁𝘄𝗼 𝗰𝗵𝗲𝗮𝗽 𝘀𝘁𝗲𝗽𝘀 Primero, reemplaza las incrustaciones fp32 con un índice binario. Los vectores binarios son 32x más pequeños. Solo este índice permanece en la memoria. Eso hace que la búsqueda inicial sea rápida y económica. 𝗜𝘁 𝗼𝗻𝗹𝘆 𝗽𝗮𝘆𝘀 𝗳𝗼𝗿 𝗮𝗰𝗰𝘂𝗿𝗮𝗰𝘆 𝗮𝘁 𝘁𝗵𝗲 𝗲𝗻𝗱 Después de la recuperación, se vuelve a puntuar un pequeño conjunto de candidatos utilizando incrustaciones int8. El flujo: • Búsqueda binaria sobre muchos documentos • Tomar los mejores candidatos • Volver a puntuar ~40 de ellos con int8 Esto recupera ~99% de la calidad fp32.