Bu hafta, Baseten'in model performans ekibi, @nvidia donanımında gpt-oss 120b için en hızlı TPS ve TTFT'nin kilidini açtı. GPT-oss piyasaya sürüldüğünde, onu 450 TPS'de sunmak için koştuk... şimdi 650 TPS ve 0.11 sn TTFT'yi aştık... Ve çıtayı yükseltmeye devam etmek için çalışmaya devam edeceğiz. Neredeyse sınırsız ölçek, inanılmaz performans ve %99,99 en yüksek çalışma süresi ile mevcut en iyi E2E gecikmesini sunmaktan gurur duyuyoruz.