Ny, nyttig ytelsesfunksjon: Partisjonssortering Lag et ytelsesgulv for å prioritere raske LLM-er, uten forsinkelsesproblemer
Du kan sette 'preferred_min_throughput' og 'preferred_max_latency'. Som før kan du også sette et kostnadstak.
55