Anda dapat menjalankan penyematan canggih pada CPU sekarang. Metode distilasi baru baru saja dikirimkan dengan 96 persen kualitas guru dengan ukuran hingga 15× lebih kecil. Biaya penyematan Leafredduces tanpa kerugian LEAF berasal dari MongoDB Research dan menargetkan model penyematan, bukan generator. Ini menyaring model besar menjadi model yang ringkas sambil mempertahankan ruang vektor yang sama. Ini menggunakan desain pengambilan asimetris Dokumen disematkan sekali menggunakan model besar. Kueri disematkan saat runtime menggunakan kueri kecil. • Satu pekerjaan offline untuk miliaran dokumen • Kueri cepat pada CPU atau perangkat edge • Tidak ada pengindeksan ulang saat model berubah Hasilnya adalah angka yang sulit Itu menjaga ~96 persen dari kinerja guru. Modelnya 5×–15× lebih kecil dan hingga 24× lebih cepat. Peringkat teratas di BEIR dan MTEB untuk ukuran kompak. Ini memungkinkan Anda menjalankan pencarian semantik, RAG, dan pengelompokan dengan latensi rendah, memori rendah, dan tanpa GPU.