Just nu är vi i tankesättet att modellerna förändras så snabbt och är så stora att det enda sättet att lita på dem är att gå runt till hyperscalern. Detta är den dynamik som uppstod med webbservrar. HTML förändrades så snabbt att appar skrivna med det förbättrades snabbare än vad "klientkod" någonsin kunde distribueras på traditionella sätt. Problemet var att bandbredden inte ökade tillräckligt snabbt. Så begränsningen tvingade fram mer beräkning på servrarna. Detta bromsade i sin tur utvecklingen av "web UI" för slutanvändare. Som dagens chattgränssnitt är det mest effektiva sättet att skicka information fram och tillbaka till modellen som körs på en hyperscalerare. Eftersom naturligt språk är ökänd för att vara oprecis och fram och tillbaka är ett frustrerande sätt att arbeta, verkar det naturligt att mer strukturerade gränssnitt kommer att användas med modeller. Och med det kommer "runtime" för att använda modeller gradvis att flyttas till att vara på enheten för att bli snabbare och mer effektiv. Det är därför idag, när du använder en "webbapp" även om den går runt mycket, använder den också en mycket stor "edge"-runtime som finns i webbläsaren + webbläsarens cache av exekverbar kod.