Czy są jakieś przyzwoite modele z naprawdę wysoką liczbą tokenów/s, które są tylko 6-12 miesięcy za obecnymi modelami SOTA pod względem możliwości? Myślę, że mógłbym zaakceptować spadek inteligencji, jeśli mogę uruchomić je lokalnie i uzyskać naprawdę szybkie informacje zwrotne, sprawiając, że interakcja z agentem będzie bardziej przypominać skrót w vim niż rozmowę.