Novo recurso de desempenho útil: Partition Sorting Crie um piso de desempenho para priorizar LLMs rápidos, sem perda de latência
Você pode definir 'preferred_min_throughput' e 'preferred_max_latency'. Como antes, você também pode definir um limite de custo.
38