Acum poți rula embeddings de ultimă generație pe procesoare. Tocmai a fost lansată o nouă metodă de distilare cu 96% din calitatea profesorului, dar cu până la 15× mai mică. Leafredduces cu costuri de încorporare fără pierderi LEAF provine de la MongoDB Research și vizează modele de embedding, nu generatoarele. Acesta distilează un model mare într-unul compact, păstrând același spațiu vectorial. Folosește un design asimetric de recuperare Documentele sunt încorporate odată ce folosesc modelul mare. Interogările sunt încorporate la rulare folosind cea mică. • Un job offline pentru miliarde de documente • Interogări rapide pe procesoare sau dispozitive edge • Fără reindexare când modelele se schimbă Rezultatele sunt cifre concrete Păstrează ~96% din performanța profesorilor. Modelele sunt cu 5×–15× mai mici și până la 24× mai rapide. Cele mai bune clasamente pe BEIR și MTEB pentru dimensiuni compacte. Acest lucru îți permite să rulezi căutare semantică, RAG și clustering cu latență scăzută, memorie redusă și fără GPU.