J'ai réussi à faire fonctionner le traitement par lots continu avec des SSM dans mlx-lm. Voici quatre agents OpenCode exécutant simultanément le Nemotron Nano de Nvidia sur 64 Go de M4 Max. C'est un bon modèle pour les petites machines car il utilise MoE + attention hybride (petit cache).