Agora pode executar embeddings de última geração em CPUs. Um novo método de destilação foi lançado com 96 por cento da qualidade do professor e até 15× menor em tamanho. 𝗟𝗲𝗮𝗳𝗿𝗲𝗱𝗱𝘂𝗰𝗲𝘀 𝗲𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴 𝗰𝗼𝘀𝘁𝘀 𝘄𝗶𝘁𝗵𝗼𝘂𝘁 𝗹𝗼𝘀𝘀 O LEAF vem da MongoDB Research e tem como alvo modelos de embedding, não geradores. Ele destila um modelo grande em um compacto, mantendo o mesmo espaço vetorial. 𝗜𝘁 𝘂𝘀𝗲𝘀 𝗮𝗻 𝗮𝘀𝘆𝗺𝗺𝗲𝘁𝗿𝗶𝗰 𝗿𝗲𝘁𝗿𝗶𝗲𝘃𝗮𝗹 𝗱𝗲𝘀𝗶𝗴𝗻 Os documentos são incorporados uma vez usando o modelo grande. As consultas são incorporadas em tempo de execução usando o pequeno. • Um trabalho offline para bilhões de documentos • Consultas rápidas em CPUs ou dispositivos de borda • Sem reindexação quando os modelos mudam 𝗧𝗵𝗲 𝗿𝗲𝘀𝘂𝗹𝘁𝘀 𝗮𝗿𝗲 𝗵𝗮𝗿𝗱 𝗻𝘂𝗺𝗯𝗲𝗿𝘀 Mantém ~96 por cento do desempenho do professor. Os modelos são 5×–15× menores e até 24× mais rápidos. Classificações de topo no BEIR e MTEB para tamanhos compactos. Isso permite que você execute busca semântica, RAG e clustering com baixa latência, baixa memória e sem GPU.