Noul model Kimi K2 Thinking de 1 trilion de parametri funcționează bine pe 2 M3 Ultra în formatul său nativ - fără pierderi de calitate! Modelul a fost antrenat conștient de cuantificare (qat) la int4. Aici a generat ~3500 de token-uri la 15 toks/sec folosind pipeline-parallelism în mlx-lm:
A generat un joc space invaders complet funcțional, fără probleme. A folosit doar câteva sute de jetoane de gândire și 3500 în total, ceea ce este destul de frumos.
774