2,5x mais rápido, mas 6x mais caro. Isto não pode ser alcançado através da otimização de inferência, deve ser novos chips. TPU? B200? AWS Inferentia? Cerebras?