Du kan nå kjøre toppmoderne embeddinger på CPU-er. En ny destillasjonsmetode har nettopp blitt levert med 96 prosent lærerkvalitet i opptil 15× mindre størrelse. Leafredduces innbeddingskostnader uten tap LEAF kommer fra MongoDB Research og retter seg mot embedding-modeller, ikke generatorer. Den destillerer en stor modell til en kompakt modell samtidig som den beholder samme vektorrom. Den bruker et asymmetrisk gjenfinningsdesign Dokumentene blir innebygd når man bruker den store modellen. Spørringer blir innebygd under kjøring ved bruk av den lille. • Én offline-jobb for milliarder av dokumenter • Raske forespørsler på CPU-er eller edge-enheter • Ingen reindeksering når modeller endres Resultatene er harde tall Den beholder ~96 prosent av lærerprestasjonene. Modellene er 5×–15× mindre og opptil 24× raskere. Toppplasseringer på BEIR og MTEB for kompakte størrelser. Dette lar deg kjøre semantisk søk, RAG og klynging med lav forsinkelse, lite minne og uten GPU.