Embedding-stakken din tvinger frem en 100 % re-indeksering bare for å bytte modell. Og de fleste lag behandler det som uunngåelig. Tenk deg at du bygger en RAG-pipeline med en stor embedding-modell for høy hentingskvalitet, og den sendes til produksjon. Seks måneder senere skyter kostnadene for applikasjonstrafikken og embedding-modellen din i været, mens pipelinen din sliter med å skalere. Du vil bytte til en modell som prioriterer kostnad og latens for å møte denne nye etterspørselen. Men dine eksisterende embeddings ligger i ett vektorrom, mens den nye modellen produserer embeddings i et annet, noe som gjør dem inkompatible. Å bytte modell betyr nå å bygge opp indeksen på nytt: - Hvert dokument må legges inn på nytt - Hver chunk må beregnes på nytt - Millioner av vektorer må regenereres før spørringer fungerer igjen De fleste lag ser på dette og velger å ta kostnaden i stedet for å bytte. Over tid blir dette en uskreven regel. Du enten optimaliserer for kvalitet eller for kostnad, og du lever med beslutningen du tok tidlig. Men dette er ikke en grunnleggende begrensning ved innbeddinger. Det er et designvalg. Hva om embedding-modeller delte samme vektorrom? I det oppsettet kunne du indeksere dokumenter med en stor modell og spørre dem med en lettere modell, uten å bygge noe på nytt. ...