اطلع على توليد الدفعات في mlx-lm مع GLM 4.7 على M3 Ultra. يعمل نموذج 6 بت دفعة من 4 بتات بسرعة تقارب ضعف معدل النقل (~30 توك/ثانية) لجيل واحد.
يمكنك أيضا توليد التوازي بالتنسور باستخدام خلفية JACCL من MLX للحصول على تسريع باستخدام عدة أجهزة. إليك GLM 4.7 في 6-بت يعمل نموذجا واحدا على أربعة أجهزة بسرعة ~25 توك/ثانية:
‏‎336‏