Il tizio che ha inventato l'architettura dei chip all'interno del 99% di tutti i processori afferma che le GPU di NVIDIA sono costruite completamente male per questa era dell'AI… Il suo argomento: le GPU sono state progettate per l'addestramento. Ma l'inferenza, dove si guadagna davvero, è un problema fondamentalmente diverso. È vincolata dalla memoria e sequenziale. E nessun chip è mai stato progettato specificamente per questo. Ogni GPU e TPU utilizzata per l'inferenza oggi è solo un chip di addestramento ridotto. Il vero collo di bottiglia è la memoria. E ogni tendenza che l'industria è più entusiasta (MoE, ragionamento, contesto lungo, multimodale) aggrava il problema della memoria. Il prossimo ciclo hardware da oltre 100 miliardi di dollari sarà vinto da chi risolverà per primo il muro della memoria.