Ahora puedes ejecutar incrustaciones de última generación en CPUs. Acaba de salir un nuevo método de destilación con un 96 por ciento de la calidad del profesor, pero hasta un 15× menor de tamaño. Leafredduces incrustando costes sin pérdida LEAF proviene de MongoDB Research y apunta a modelos de incrustación, no a generadores. Destila un modelo grande en uno compacto manteniendo el mismo espacio vectorial. Utiliza un diseño de recuperación asimétrica Los documentos se incrustan una vez usando el modelo grande. Las consultas se incrustan en tiempo de ejecución usando la pequeña. • Un trabajo offline para miles de millones de documentos • Consultas rápidas en CPUs o dispositivos edge • No se permite reindexar cuando cambian los modelos Los resultados son cifras concretas Conserva el ~96 por ciento del rendimiento del profesor. Los modelos son entre 5× 15× más pequeños y hasta un 24× más rápidos. Primeros rankings en BEIR y MTEB para tamaños compactos. Esto te permite ejecutar búsqueda semántica, RAG y clustering con baja latencia, poca memoria y sin GPU.