Mereka menggunakan vLLM untuk pembandingan TPU tidak dioptimalkan untuk itu Jadi mereka mendapatkan skor buruk