Nová, užitečná výkonnost: třídění podle oddílů Vytvořte výkonnostní minimální úroveň, abyste upřednostnili rychlé LLM bez ztráty latence
Můžete nastavit 'preferred_min_throughput' a 'preferred_max_latency'. Stejně jako dříve si můžete nastavit i strop nákladů.
26