Existem modelos decentes com uma taxa de tokens muito alta que estão apenas 6-12 meses atrás dos modelos SOTA atuais em capacidades? Estou a pensar que poderia aceitar a perda de inteligência se conseguir executar localmente e obter feedback muito rápido, tornando a interação com o agente mais parecida com um atalho do vim do que uma conversa.