Y a-t-il des modèles décents avec un nombre de tokens/s vraiment élevé qui ne sont en retard que de 6 à 12 mois par rapport aux modèles SOTA actuels en termes de capacités ? Je pense que je pourrais accepter une perte d'intelligence si je peux les faire fonctionner localement et obtenir des retours très rapides, rendant l'interaction avec l'agent plus semblable à un raccourci vim qu'à une conversation.