Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Con l'imminente tsunami di domanda per i token, ci sono opportunità significative per orchestrare la memoria+calcolo sottostante *proprio nel modo giusto* per i LLM.
Il vincolo fondamentale e non ovvio è che, a causa del processo di fabbricazione dei chip, si ottengono due pool di memoria completamente distinti (anche di diverse implementazioni fisiche): 1) SRAM on-chip che è immediatamente accanto alle unità di calcolo, incredibilmente veloce ma di capacità molto bassa, e 2) DRAM off-chip che ha una capacità estremamente alta, ma il cui contenuto può essere estratto solo attraverso una lunga cannuccia. Inoltre, ci sono molti dettagli dell'architettura (ad es. array sistolici), numeri, ecc.
La progettazione del substrato fisico ottimale e poi l'orchestrazione della memoria+calcolo attraverso i flussi di lavoro volumetrici superiori dei LLM (inference prefill/decode, training/finetuning, ecc.) con il miglior throughput/latency/$ è probabilmente il puzzle intellettuale più interessante di oggi con le ricompense più elevate (\cite 4.6T di NVDA). Tutto ciò per ottenere molti token, velocemente e a basso costo. Si potrebbe sostenere che il flusso di lavoro che potrebbe contare di più (inference decode *e* su lunghi contesti di token in loop agentici stretti) è quello più difficile da realizzare simultaneamente dai ~due campi di ciò che esiste oggi (HBM-first adiacente a NVIDIA e SRAM-first adiacente a Cerebras). Comunque, il team di MatX è di grado A++, quindi è un piacere avere un piccolo coinvolgimento e congratulazioni per il finanziamento!
Principali
Ranking
Preferiti
