Nowa, przydatna funkcja wydajności: Sortowanie partycji Utwórz podłogę wydajności, aby priorytetowo traktować szybkie LLM-y, bez opóźnienia.
Możesz ustawić `preferred_min_throughput` i `preferred_max_latency`. Jak wcześniej, możesz również ustawić limit kosztów.
27