tabella molto interessante di deepseek v3.2 che confronta il conteggio dei token di output su diversi benchmark, la versione speciale dsv3.2 pensa molto di più rispetto a qualsiasi altro modello, MA poiché stanno utilizzando l'attenzione sparsa, il costo di inferenza sarà comunque accettabile?