Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Il momento in cui l'intelligenza è stata scolpita nella pietra
L'umanità sta facendo qualcosa di folle in questo momento. Costruendo centri dati delle dimensioni di città, erigendo centrali elettriche accanto a essi, lanciando reti satellitari e raffreddando stanze piene di supercomputer che divorano centinaia di kilowatt con sistemi di raffreddamento a liquido. Tutto per far funzionare l'AI. Convinti che questo sia il futuro.
Ma la storia racconta una storia diversa. Ogni rivoluzione tecnologica è iniziata con prototipi mostruosi, e quei mostri sono scomparsi nel momento in cui è arrivato un progresso pratico. Ricordi l'ENIAC? Una bestia a valvole che riempiva un'intera stanza. Ha mostrato all'umanità la magia del calcolo, ma era lenta, costosa e non poteva mai scalare. Poi è arrivato il transistor, e tutto è cambiato. Le workstation, i PC, gli smartphone sono seguiti. Il mondo ha scelto di trascendere l'ENIAC piuttosto che costruirne di più. I centri dati GPU che stiamo costruendo oggi sono l'ENIAC dell'AI. Funzionano. Incantano. Ma questo non è la fine.
Prima di continuare a leggere, vai al sito qui sotto e chiedi qualsiasi cosa. Trenta secondi è tutto ciò che serve. Devi sentire questo nel tuo corpo.
Un LLM è arrivato dove la risposta è già lì nel momento in cui premi invio. Abbiamo vissuto come se la latenza nelle risposte dell'AI fosse semplicemente il modo in cui stanno le cose. Ecco perché questo è uno shock che nessun benchmark può trasmettere.
Il calcolo di uso generale ha cambiato il mondo perché è diventato veloce, economico e facile da costruire. L'AI seguirà lo stesso percorso. Il problema è che l'AI di oggi è lontana da quel percorso. Quando fai una domanda all'AI, appoggia il mento sulla mano e pensa per un po'. Gli assistenti di codifica fissano nel vuoto per minuti prima di fornire una risposta, distruggendo il tuo flusso. Anche quando sono necessarie risposte in un batter d'occhio, tutto ciò che ottieni è una risposta lenta. Parlare con l'AI è ancora come fare una chiamata internazionale. Parla, aspetta, aspetta ancora. Questa latenza è il muro tra gli esseri umani e l'AI.
Il problema dei costi è peggiore. Eseguire l'AI di oggi richiede attrezzature e capitali enormi. Stack HBM, I/O complessi, cavi, raffreddamento a liquido, imballaggio avanzato, impilamento 3D. Perché tutto questo è necessario? Perché il luogo che ricorda e il luogo che pensa sono separati.
Pensala in questo modo. Il tuo cervello è a Seoul, ma tutti i tuoi ricordi sono immagazzinati in un magazzino a Busan. Ogni volta che hai bisogno di richiamare qualcosa, devi prendere il KTX per Busan per recuperarlo. L'hardware AI moderno ha esattamente questa struttura. La memoria (DRAM) è grande ed economica ma si trova all'esterno del chip, rendendo l'accesso migliaia di volte più lento rispetto alla memoria on-chip. E non puoi mettere la DRAM all'interno del chip di calcolo — i processi di fabbricazione sono fondamentalmente diversi. Questa contraddizione crea tutta la complessità nell'hardware AI. Per ridurre il viaggio di andata e ritorno Seoul-Busan, posiamo l'HBM come una ferrovia ad alta velocità, costruiamo l'impilamento 3D come grattacieli e facciamo funzionare il raffreddamento a liquido come un enorme condizionatore d'aria. Naturalmente, il consumo energetico schizza alle stelle e i costi vanno alle stelle.
Taalas ha capovolto tutto questo dall'inizio. Invece di recuperare i ricordi da Busan, li hanno piantati direttamente all'interno del cervello. Hanno unificato memoria e calcolo su un singolo chip a densità a livello di DRAM. Poi sono andati un passo oltre: costruendo silicio dedicato per ogni modello. Non off-the-rack — sartoria su misura. Nel corso della storia del calcolo, la specializzazione profonda è sempre stata il percorso più sicuro verso un'efficienza estrema. Taalas ha spinto quel principio al suo limite assoluto.
Come è possibile? Incidono la conoscenza appresa dal modello — i suoi pesi — direttamente nei strati metallici del silicio. Intelligenza, letteralmente scolpita nella pietra. Un singolo transistor tiene un peso mentre esegue simultaneamente una moltiplicazione. Ricorda e pensa allo stesso tempo. Nelle parole del fondatore Ljubisa Bajic, questo non è "fisica nucleare — è un trucco intelligente che nessuno ha visto perché nessuno ha intrapreso questo percorso." Mantengono intatto lo scheletro del chip e scambiano solo due strati metallici per personalizzarlo per un modello specifico. Tatuaggi diversi sullo stesso corpo. Sul processo a 6nm di TSMC, ci vogliono due mesi dai pesi del modello a una scheda funzionante.
Il chip HC1, con Llama 3.1 8B scolpito nel suo silicio, elabora circa 17.000 token al secondo per utente. L'H200 di Nvidia fa 230, il B200 fa 353, Groq 594, SambaNova 932, Cerebras 1.981. Tutti gli altri stanno andando in bicicletta. Taalas ha preso un jet. Una scheda consuma 200 watt. Dieci schede in un server, 2.500 watt. Una ventola è sufficiente. Si collega direttamente a qualsiasi centro dati costruito negli ultimi trent'anni. Costo di produzione: un ventesimo. Potenza: un decimo. Niente HBM, niente imballaggio avanzato, niente impilamento 3D, niente raffreddamento a liquido.
Niente è gratis, ovviamente. Se una GPU di uso generale è un altoparlante che può riprodurre qualsiasi canzone, un chip Taalas è una scatola musicale che suona una melodia perfettamente. Non è intelligente, e quando il modello cambia, hai bisogno di un nuovo chip. Ma la dimensione del contesto è regolabile, e il fine-tuning LoRA funziona.
E, cosa cruciale, la soglia in cui i modelli diventano sufficienti per compiti quotidiani si sta avvicinando. Se i modelli di frontiera avanzano solo un po' di più, entreremo in un periodo in cui un singolo modello serve il lavoro di routine per un bel po' di tempo. È allora che l'economia di una scatola musicale dedicata regge.
Nvidia ha acquisito Groq per 20 miliardi di dollari, SoftBank ha inghiottito Graphcore, Intel ha puntato a SambaNova. Una massiccia onda verso il silicio specifico per inferenza si sta formando proprio ora. Taalas si trova al suo bordo più radicale. Il primo prodotto inizia con Llama scolpito nel silicio, seguito da un modello di ragionamento di medie dimensioni in primavera e un modello di frontiera entro l'inverno.
...

Principali
Ranking
Preferiti
