Lookahead-ruting for LLM-er Foreslår Lookahead, et rutingrammeverk for å muliggjøre mer informert ruting uten full slutning. Oppnår en gjennomsnittlig ytelsesgevinst på 7,7 % i forhold til den nyeste teknologien. Her er grunnen til at det fungerer: Lookahead er et nytt rammeverk for ruting i multi-LLM-systemer, som bestemmer hvilken modell som skal håndtere hver spørring. Hovedidé: I stedet for å rute kun basert på inndataspørringen, forutsier Lookahead latente representasjoner av potensielle svar, og gir den en "titt" inn i hva hver modell vil si uten å generere tekst fullt ut. Smartere beslutninger: Denne responsbevisste prediksjonen gjør ruting mer kontekstsensitiv og nøyaktig, spesielt for åpne eller preferansedrevne oppgaver. Effektiv læring: Den er svært dataeffektiv, oppnår full ytelse med bare 16 % av treningsdataene sammenlignet med grunnlinjer, og lærer bedre semantiske representasjoner for ruting. Dobbel design: Fungerer med både kausale og maskerte LM-varianter, og generaliserer på tvers av flere arkitekturer. Ytelse: Overgår toppmoderne rutingmetoder på tvers av syv benchmarks, med de største gevinstene i nyanserte, kreative oppgaver. Lookahead viser at å legge til lett generativ fremsyn kan gjøre multimodellsystemer mer tilpasningsdyktige og kostnadseffektive uten å trenge full modellslutning.