Je kunt nu state-of-the-art embeddings op CPU's draaien. Een nieuwe distillatiemethode is net uitgebracht met 96 procent van de kwaliteit van de leraar bij een grootte tot 15× kleiner. 𝗟𝗲𝗮𝗳𝗿𝗲𝗱𝗱𝘂𝗰𝗲𝘀 𝗲𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴 𝗰𝗼𝘀𝘁𝘀 𝘄𝗶𝘁𝗵𝗼𝘂𝘁 𝗹𝗼𝘀𝘀 LEAF komt van MongoDB Research en richt zich op embeddingmodellen, niet op generators. Het distilleert een groot model naar een compact model terwijl het dezelfde vectorruimte behoudt. 𝗜𝘁 𝘂𝘀𝗲𝘀 𝗮𝗻 𝗮𝘀𝘆𝗺𝗺𝗲𝘁𝗿𝗶𝗰 𝗿𝗲𝘁𝗿𝗶𝗲𝘃𝗮𝗹 𝗱𝗲𝘀𝗶𝗴𝗻 Documenten worden één keer ingebed met het grote model. Vragen worden tijdens runtime ingebed met het kleine model. • Eén offline taak voor miljarden documenten • Snelle vragen op CPU's of edge-apparaten • Geen herindexering wanneer modellen veranderen 𝗧𝗵𝗲 𝗿𝗲𝘀𝘂𝗹𝘁𝘀 𝗮𝗿𝗲 𝗵𝗮𝗿𝗱 𝗻𝘂𝗺𝗯𝗲𝗿𝘀 Het behoudt ~96 procent van de prestaties van de leraar. Modellen zijn 5×–15× kleiner en tot 24× sneller. Top rankings op BEIR en MTEB voor compacte formaten. Dit stelt je in staat om semantische zoekopdrachten, RAG en clustering uit te voeren met lage latentie, laag geheugen en zonder GPU.