2,5x rychlejší, ale 6x dražší. To nelze dosáhnout optimalizací inference, musí jít o nové čipy. TPU? B200? AWS Inferentia? Cerebras?