Neste momento, estamos na mentalidade de que os modelos estão a mudar tão rapidamente e são tão grandes que a única forma de confiar neles é através de roundtripping para o hyperscaler. Esta é a dinâmica que aconteceu com os servidores web. O HTML estava a mudar tão rapidamente que as aplicações escritas com ele estavam a melhorar mais rapidamente do que o "código do cliente" poderia ser distribuído de maneiras tradicionais. O problema era que a largura de banda não estava a aumentar rapidamente o suficiente. Assim, a restrição forçou mais computação a acontecer nos servidores. Isso, por sua vez, atrasou o avanço da "interface web" para os utilizadores finais. Como a interface de chat de hoje é a forma mais eficaz de transportar informações de um lado para o outro para o modelo que está a correr num hyperscaler. Uma vez que a linguagem natural é notoriamente imprecisa e o vai-e-vem é uma forma frustrante de trabalhar, parece natural que interfaces mais estruturadas encontrarão o seu caminho para usar modelos. E com isso, o "runtime" para usar modelos migrará gradualmente para estar no dispositivo, a fim de ser mais rápido e mais eficiente. É por isso que hoje, quando usas uma "web app", mesmo que faça muitos round trips, também faz uso de um "edge" runtime muito grande contido no navegador + o cache do navegador de código executável.