Ci sono modelli decenti con un numero di token/s davvero elevato che sono solo 6-12 mesi indietro rispetto ai modelli SOTA attuali in termini di capacità? Pensavo che potrei accettare un calo di intelligenza se fossi in grado di eseguirli localmente e ottenere feedback molto veloce, rendendo l'interazione con l'agente più simile a una scorciatoia di vim piuttosto che a una conversazione.