Agora você pode rodar embeddings de última geração em CPUs. Um novo método de destilação acabou de ser lançado com 96% da qualidade do professor, mas até 15× menor. Leafredduces de embedding custam sem perda O LEAF vem da MongoDB Research e mira modelos de embedding, não geradores. Ela destila um modelo grande em um compacto, mantendo o mesmo espaço vetorial. Utiliza um design de recuperação assimétrica Documentos são incorporados ao usar o modelo grande. As consultas são incorporadas em tempo de execução usando a versão pequena. • Um trabalho offline para bilhões de documentos • Consultas rápidas em CPUs ou dispositivos de borda • Não há reindexação quando os modelos mudam Os resultados são números concretos Ele mantém ~96% do desempenho dos professores. Os modelos são 5×–15× menores e até 24× mais rápidos. Melhores rankings no BEIR e MTEB para tamanhos compactos. Isso permite rodar busca semântica, RAG e clustering com baixa latência, baixa memória e sem GPU.