¿Hay algún modelo decente con un número de tokens/s realmente alto que esté solo de 6 a 12 meses detrás de los modelos SOTA actuales en capacidades? Estoy pensando que podría asumir la pérdida de inteligencia si puedo ejecutarlo localmente y obtener retroalimentación muy rápida, haciendo que la interacción con el agente sea más como un atajo de vim que una conversación.