Nueva y útil función de rendimiento: Ordenación de particiones Crear un piso de rendimiento para priorizar los LLMs rápidos, sin ningún impacto de latencia
Puedes poner 'preferred_min_throughput' y 'preferred_max_latency'. Como antes, también puedes establecer un límite de costes.
39