2,5 kertaa nopeammin, mutta 6 kertaa kalliimpi. Tätä ei voi saavuttaa päättelyoptimoinnilla, vaan on oltava uusia piirejä. TPU? B200? AWS Inferentia? Cerebras?