Berhentilah membuang-buang ratusan gigabyte untuk pencarian vektor. Pengaturan pengambilan baru memangkas memori sebesar 32x dan kecepatan sebesar ~25x. Ini dilakukan dengan memisahkan pencarian kandidat dari penilaian. Ini membagi pencarian menjadi dua langkah murah Pertama, ini menggantikan penyematan fp32 dengan indeks biner. Vektor biner 32x lebih kecil. Hanya indeks ini yang tetap ada dalam memori. Itu membuat pencarian awal cepat dan murah. Itu hanya membayar akurasi pada akhirnya Setelah pengambilan, itu menilai ulang set kandidat kecil menggunakan penyematan int8. Aliran: • Pencarian biner di banyak dokumen • Ambil kandidat teratas • Skor ulang ~40 dari mereka dengan int8 Ini memulihkan ~99% dari kualitas fp32.