Hören Sie auf, Hunderte von Gigabyte für die Vektorsuche zu verschwenden. Ein neues Abruf-Setup reduziert den Speicher um das 32-fache und die Geschwindigkeit um etwa das 25-fache. Dies geschieht, indem die Kandidatensuche von der Bewertung getrennt wird. 𝗜𝘁 𝘀𝗽𝗹𝗶𝘁𝘀 𝘀𝗲𝗮𝗿𝗰𝗵 𝗶𝗻𝘁𝗼 𝘁𝘄𝗼 𝗰𝗵𝗲𝗮𝗽 𝘀𝘁𝗲𝗽𝘀 Zuerst ersetzt es fp32-Embeddings durch einen binären Index. Binäre Vektoren sind 32x kleiner. Nur dieser Index bleibt im Speicher. Das macht die anfängliche Suche schnell und günstig. 𝗜𝘁 𝗼𝗻𝗹𝘆 𝗽𝗮𝘆𝘀 𝗳𝗼𝗿 𝗮𝗰𝗰𝘂𝗿𝗮𝗰𝘆 𝗮𝘁 𝘁𝗵𝗲 𝗲𝗻𝗱 Nach dem Abruf wird eine kleine Kandidatengruppe mit int8-Embeddings neu bewertet. Der Ablauf: • Binäre Suche über viele Dokumente • Die besten Kandidaten auswählen • Etwa 40 davon mit int8 neu bewerten Dies stellt etwa 99% der fp32-Qualität wieder her.