In questo momento abbiamo la mentalità che i modelli stiano cambiando così rapidamente e siano così grandi che l'unico modo per fare affidamento su di essi è tramite il roundtripping verso il hyperscaler. Questa è la dinamica che è avvenuta con i server web. L'HTML stava cambiando così velocemente che le app scritte utilizzando esso stavano migliorando più velocemente di quanto il "codice client" potesse mai essere distribuito in modi tradizionali. Il problema era che la larghezza di banda non stava aumentando abbastanza rapidamente. Quindi la costrizione ha costretto a far avvenire più calcoli sui server. Questo, a sua volta, ha rallentato l'avanzamento dell'"interfaccia web" per gli utenti finali. Come l'interfaccia di chat di oggi è il modo più efficace per trasmettere informazioni avanti e indietro al modello in esecuzione su un hyperscaler. Poiché il linguaggio naturale è notoriamente impreciso e il dialogo è un modo frustrante per lavorare, sembra naturale che interfacce più strutturate troveranno il loro modo di utilizzare i modelli. E con ciò il "runtime" per utilizzare i modelli migrerà gradualmente per essere sul dispositivo al fine di essere più veloce ed efficiente. Questo è il motivo per cui oggi, quando utilizzi un "web app", anche se fa molti round trip, sfrutta anche un "edge" runtime molto grande contenuto nel browser + la cache del browser di codice eseguibile.