DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Avi Chawla

Tutorial giornalieri e approfondimenti su DS, ML, LLM e RAG • Co-fondatore @dailydoseofds_ • IIT Varanasi • ex-AI Engineer @ MastercardAI

Il tuo stack di embedding costringe a un re-indicizzazione del 100% solo per cambiare modello. E la maggior parte dei team considera questo come inevitabile. Immagina di aver costruito una pipeline RAG con un grande modello di embedding per una qualità di recupero elevata, e che venga messa in produzione. Sei mesi dopo, il traffico della tua applicazione e i costi del tuo modello di embedding stanno aumentando vertiginosamente mentre la tua pipeline fatica a scalare. Vuoi passare a un modello che dia priorità ai costi e alla latenza per soddisfare questa nuova domanda. Ma i tuoi embedding esistenti vivono in uno spazio vettoriale, mentre il nuovo modello produce embedding in un altro, il che li rende incompatibili. Passare a un nuovo modello ora significa ricostruire l'indice: - Ogni documento deve essere ri-embedded - Ogni chunk deve essere ricalcolato - Milioni di vettori devono essere rigenerati prima che le query funzionino di nuovo La maggior parte dei team guarda a questo e decide di assorbire il costo invece di cambiare. Col tempo, questo si indurisce in una regola non scritta. O ottimizzi per la qualità o ottimizzi per il costo, e vivi con la decisione che hai preso all'inizio. Ma questa non è una limitazione fondamentale degli embedding. È una scelta di design. E se i modelli di embedding condividessero lo stesso spazio vettoriale? In quella configurazione, potresti indicizzare documenti utilizzando un grande modello e interrogarli utilizzando uno più leggero, senza ricostruire nulla. - I vettori rimangono gli stessi. - Il database rimane lo stesso. - La re-indicizzazione non è più necessaria. Una volta che vedi il problema in questo modo, l'architettura diventa ovvia. E l'ultima serie Voyage 4 di Voyage AI abilita precisamente questa capacità. Ecco come appare in pratica: voyage-4-large è il primo modello di embedding in produzione costruito su un'architettura Mixture of Experts, e ho lavorato con il team di MongoDB per condividere come funziona. Ho scritto di MoE prima, ma lascia che lo spieghi rapidamente: La maggior parte dei modelli di embedding utilizza ogni parametro per ogni query. voyage-4-large attiva solo gli esperti rilevanti per ciascun input, il che preserva la qualità di recupero riducendo la quantità di calcolo richiesta per ogni query. Il risultato è un'accuratezza all'avanguardia con costi di servizio inferiori del 40%. E qui le cose migliorano ulteriormente per gli sviluppatori: voyage-4-nano è open-weights su Hugging Face, il che rende lo sviluppo locale e la sperimentazione semplici. E poiché tutti i modelli della famiglia condividono lo stesso spazio di embedding, hai un percorso chiaro dallo sviluppo alla produzione: → Prototipa localmente con voyage-4-nano → Testa con voyage-4-lite per query sensibili ai costi → Indicizza con voyage-4-large per la massima qualità → Mescola modelli nella stessa pipeline senza ricostruire l'indice Il punto più grande è questo: Il modello con cui inizi non dovrebbe determinare come si evolve il tuo sistema. - Spazi vettoriali isolati portano a decisioni bloccate - Spazi vettoriali condivisi preservano la capacità di adattarsi nel tempo Ho condiviso il link per scaricare il modello voyage-4-nano di @VoyageAIs da HF nelle risposte.

Principali

Ranking

Preferiti