Logré que el procesamiento por lotes continuo funcionara con SSMs en mlx-lm. Aquí hay cuatro agentes de OpenCode ejecutando simultáneamente el Nemotron Nano de Nvidia en 64GB M4 Max. Este es un buen modelo para máquinas más pequeñas ya que es MoE + atención híbrida (caché pequeña).