DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Din embeddingstack tvingar fram en 100 % omindexering bara för att byta modell. Och de flesta team behandlar det som oundvikligt. Föreställ dig att du bygger en RAG-pipeline med en stor inbäddningsmodell för hög återvinningskvalitet, och den skickas till produktion. Sex månader senare skjuter kostnaderna för din applikationstrafik och din embedding-modell i höjden medan din pipeline har svårt att skala. Du vill byta till en modell som prioriterar kostnad och latens för att möta denna nya efterfrågan. Men dina befintliga inbäddningar finns i ett vektorrum, medan den nya modellen producerar inbäddningar i ett annat, vilket gör dem inkompatibla. Att byta modell innebär nu att bygga om indexet: - Varje dokument måste bäddas in igen - Varje chunk måste beräknas om - Miljontals vektorer måste genereras innan frågor fungerar igen De flesta lag ser på detta och väljer att ta kostnaden istället för att byta. Med tiden hårdnar detta till en outtalad regel. Du optimerar antingen för kvalitet eller för kostnad, och du lever med det beslut du tog tidigt. Men detta är inte en grundläggande begränsning för inbäddningar. Det är ett designval. Tänk om inbäddningsmodeller delade samma vektorrum? I den uppsättningen kunde du indexera dokument med en stor modell och fråga dem med en lättare, utan att bygga om något. ...

Topp

Rankning

Favoriter