2,5x schneller, aber 6x teurer. Das kann nicht durch Inferenzoptimierung erreicht werden, es müssen neue Chips sein. TPU? B200? AWS Inferentia? Cerebras?