Fitur kinerja baru yang berguna: Penyortiran Partisi Buat lantai performa untuk memprioritaskan LLM cepat, tanpa latensi
Anda dapat mengatur 'preferred_min_throughput' dan 'preferred_max_latency'. Seperti sebelumnya, Anda juga dapat menetapkan batas biaya.
29