Das Geheimnis hinter der Leistung von LLMs auf Rechenzentrumsniveau? Kontinuierliches Batching 🚀 Es ermöglicht einem Server, viele Anfragen mit fast null Overhead zu jonglieren. Und ja, kontinuierliches Batching kommt bald zu @PicoGPT und MLX-Swift 👀