2,5 volte più veloce ma 6 volte più costoso. Questo non può essere raggiunto tramite l'ottimizzazione dell'inferenza, devono essere nuovi chip. TPU? B200? AWS Inferentia? Cerebras?