Teď už můžete na CPU spustit špičkové embeddingy. Nová destilační metoda právě byla dodána s 96 procenty učitelské kvality a až 15× menší velikostí. Leafredduces náklady na vložení bez ztráty LEAF pochází z MongoDB Research a zaměřuje se na modely vkládání, ne na generátory. Destiluje velký model do kompaktního a zároveň zachovává stejný vektorový prostor. Používá asymetrický retrievalní design Dokumenty se vkládají jednou pomocí velkého modelu. Dotazy se vkládají za běhu pomocí toho malého. • Jedna offline práce pro miliardy dokumentů • Rychlé dotazy na CPU nebo edge zařízeních • Žádné přeindexování při změně modelů Výsledky jsou tvrdá čísla Udržuje ~96 procent výkonu učitelů. Modely jsou o 5×–15× menší a až o 24× rychlejší. Nejlepší hodnocení na BEIR a MTEB pro kompaktní velikosti. To vám umožní spouštět sémantické vyhledávání, RAG a clusterování s nízkou latencí, nízkou pamětí a bez GPU.