2,5x lebih cepat tetapi 6x lebih mahal. Ini tidak dapat dicapai dengan pengoptimalan inferensi, harus chip baru. TPU? B200? AWS Inferentia? Cerebra?