Nouvelle fonctionnalité de performance utile : Tri par partition Créez un plancher de performance pour prioriser les LLM rapides, sans impact sur la latence.
Vous pouvez définir `preferred_min_throughput` et `preferred_max_latency`. Comme auparavant, vous pouvez également définir un plafond de coût.
110