Có mô hình nào tốt với tốc độ token/s thực sự cao mà chỉ chậm hơn các mô hình SOTA hiện tại từ 6-12 tháng về khả năng không? Tôi đang nghĩ rằng tôi có thể chấp nhận một chút thiệt thòi về trí tuệ nếu tôi có thể chạy nó cục bộ và nhận phản hồi nhanh, làm cho việc tương tác với tác nhân giống như một phím tắt vim hơn là một cuộc trò chuyện.