Nhanh hơn 2.5 lần nhưng đắt hơn 6 lần. Điều này không thể đạt được bằng cách tối ưu hóa suy diễn, phải là chip mới. TPU? B200? AWS Inferentia? Cerebras?