Tumpukan penyematan Anda memaksa pengindeksan ulang 100% hanya untuk mengubah model. Dan sebagian besar tim memperlakukan itu sebagai hal yang tidak dapat dihindari. Bayangkan Anda membuat pipa RAG dengan model penyematan besar untuk kualitas pengambilan yang tinggi, dan dikirimkan ke produksi. Enam bulan kemudian, lalu lintas aplikasi dan biaya model penyematan Anda melonjak sementara pipeline Anda kesulitan untuk menskalakan. Anda ingin beralih ke model yang memprioritaskan biaya dan latensi untuk memenuhi permintaan baru ini. Tetapi penyematan Anda yang ada berada di satu ruang vektor, sementara model baru menghasilkan penyematan di ruang yang berbeda, yang membuatnya tidak kompatibel. Mengganti model sekarang berarti membangun kembali indeks: - Setiap dokumen perlu disematkan kembali - Setiap potongan harus dihitung ulang - Jutaan vektor harus dibuat ulang sebelum kueri berfungsi lagi Sebagian besar tim melihat ini dan memutuskan untuk menyerap biaya alih-alih beralih. Seiring waktu, ini mengeras menjadi aturan yang tidak terucapkan. Anda mengoptimalkan kualitas atau mengoptimalkan biaya, dan Anda hidup dengan keputusan yang Anda buat lebih awal. Tetapi ini bukan batasan mendasar dari penyematan. Ini adalah pilihan desain. Bagaimana jika model penyematan berbagi ruang vektor yang sama? Dalam pengaturan itu, Anda dapat mengindeks dokumen menggunakan model besar dan menanyakannya menggunakan model yang lebih ringan, tanpa membangun kembali apa pun. ...