Nueva y útil función de rendimiento: Ordenación por particiones Crea un umbral de rendimiento para priorizar LLMs rápidos, sin impacto en la latencia.
Puedes establecer `preferred_min_throughput` y `preferred_max_latency`. Como antes, también puedes establecer un límite de costo.
36