Du kan nu köra toppmoderna embeddings på CPU:er. En ny destillationsmetod har precis levererats med 96 procent av lärarkvaliteten i upp till 15 × mindre storlek. Leafredduces inbäddningskostnader utan förlust LEAF kommer från MongoDB Research och riktar sig mot inbäddningsmodeller, inte generatorer. Den destillerar en stor modell till en kompakt modell samtidigt som den behåller samma vektorutrymme. Den använder en asymmetrisk återvinningsdesign Dokumenten bäddas in en gång med den stora modellen. Frågor bäddas in vid körning med den lilla versionen. • Ett offlinejobb för miljarder dokument • Snabba frågor på CPU:er eller edge-enheter • Ingen omindexering när modeller ändras Resultaten är hårda siffror Den behåller ~96 procent av lärarens prestation. Modellerna är 5×–15× mindre och upp till 24× snabbare. Toppplaceringar på BEIR och MTEB för kompakta storlekar. Detta låter dig köra semantisk sökning, RAG och klustring med låg latens, lågt minne och utan GPU.