2,5 fois plus rapide mais 6 fois plus cher. Cela ne peut pas être réalisé par l'optimisation de l'inférence, il doit s'agir de nouvelles puces. TPU ? B200 ? AWS Inferentia ? Cerebras ?