Sekret wydajności LLM na poziomie centrum danych? Ciągłe grupowanie 🚀 Pozwala to serwerowi obsługiwać wiele żądań z prawie zerowym narzutem. I tak, ciągłe grupowanie wkrótce trafi do @PicoGPT i MLX-Swift 👀