Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ögonblicket då intelligens huggs i sten
Mänskligheten gör något galet just nu. Bygga datacenter i stadsstorlek, bygga kraftverk intill, skjuta upp satellitnätverk och kylrum fulla av superdatorer som slukar hundratals kilowatt med vätskekylsystem. Allt för att köra AI. Övertygad om att detta är framtiden.
Men historien berättar en annan historia. Varje teknologisk revolution har börjat med monstruösa prototyper, och dessa monster försvann i samma ögonblick som ett praktiskt genombrott kom. Kommer du ihåg ENIAC? Ett vakuumrörsmonster som fyllde ett helt rum. Det visade mänskligheten datorernas magi, men det var långsamt, dyrt och kunde aldrig skalas. Sedan kom transistorn, och allt förändrades. Arbetsstationer, datorer och smartphones följde. Världen valde att överskrida ENIAC istället för att bygga fler av dem. De GPU-datacenter vi bygger idag är AI:s ENIAC. De fungerar. De bländar. Men det här är inte slutet.
Innan du läser vidare, gå till sidan nedan och fråga vad som helst. Trettio sekunder är allt som krävs. Du behöver känna detta i din kropp.
Ett LLM har anlänt där svaret redan finns där i samma ögonblick som du trycker enter. Vi har levt som om latens i AI-svar helt enkelt var så det är. Därför är detta en chock som ingen riktmärke kan förmedla.
Allmän datoranvändning förändrade världen eftersom den blev snabb, billig och enkel att bygga. AI kommer att följa samma väg. Problemet är att dagens AI inte alls är i närheten av den vägen. När du ställer AI en fråga vilar den hakan på handen och tänker en stund. Kodassistenter stirrar tomt i flera minuter innan de levererar ett svar, vilket krossar ditt flöde. Även när snabba svar behövs får du bara ett lugnt svar. Att prata med AI är fortfarande som att ringa ett internationellt samtal. Säg, vänta, vänta lite till. Denna latens är muren mellan människor och AI.
Kostnadsproblemet är värre. Att driva dagens AI kräver enorm utrustning och kapital. HBM-stackar, komplex I/O, kablar, vätskekylning, avancerad paketering, 3D-stapling. Varför är allt detta nödvändigt? För platsen som minns och platsen som tänker är separerade.
Tänk på det så här. Din hjärna är i Seoul, men alla dina minnen är lagrade i ett lager i Busan. Varje gång du behöver återkalla något måste du ta KTX:en till Busan för att hämta det. Modern AI-hårdvara har precis denna struktur. Minne (DRAM) är stort och billigt men sitter utanför chipet, vilket gör åtkomsten tusentals gånger långsammare än inbyggt minne. Och du kan inte heller placera DRAM i beräkningschipet — tillverkningsprocesserna är fundamentalt olika. Denna motsägelse skapar all komplexitet i AI-hårdvara. För att minska resan mellan Seoul och Busan lägger vi HBM som höghastighetståg, bygger 3D-stapling som höghus och kör vätskekylning som massiv luftkonditionering. Naturligtvis skjuter elförbrukningen i höjden och kostnaderna skjuter i höjden.
Taalas vände detta från grunden. Istället för att hämta minnen från Busan planterade de dem direkt i hjärnan. De förenade minne och beräkningar på ett enda chip med DRAM-nivåtäthet. Sedan gick de ett steg längre: byggde dedikerat kisel för varje modell. Inte färdigt — skräddarsydd sömnad. Genom datorhistorien har djup specialisering alltid varit den säkraste vägen till extrem effektivitet. Taalas pressade den principen till dess absoluta gräns.
Hur är detta möjligt? De etsar modellens inlärda kunskap – dess vikter – direkt i kiselens metalllager. Intelligens, bokstavligen huggen i sten. En enskild transistor håller en vikt samtidigt som den multiplicerar. Den minns och tänker samtidigt. Med grundaren Ljubisa Bajics ord är detta "inte kärnfysik — det är ett smart trick som ingen såg eftersom ingen gick den här vägen." De behåller chipets skelett intakt och byter bara två metalllager för att anpassa det till en specifik modell. Olika tatueringar på samma kropp. På TSMC:s 6nm-process tar det två månader från modellvikter till ett fungerande kort.
HC1-chippet, med Llama 3.1 8B inristat i sitt kisel, bearbetar ungefär 17 000 tokens per sekund per användare. Nvidias H200 klarar 230, B200 353, Groq 594, SambaNova 932, Cerebras 1 981. Alla andra cyklar. Taalas tog ett jetplan. Ett kort drar 200 watt. Tio kort i en server, 2 500 watt. En fläkt räcker. Den kopplas direkt till vilket datacenter som helst som byggts under de senaste trettio åren. Tillverkningskostnad: en tjugondel. Kraft: en tiondel. Ingen HBM, ingen avancerad förpackning, ingen 3D-stapling, ingen vätskekylning.
Inget är gratis, förstås. Om ett allmänt GPU är en högtalare som kan spela vilken låt som helst, är ett Taalas-chip en musikdosa som spelar en låt felfritt. Det är inte smart, och när modellen ändras behöver du ett nytt chip. Men kontextstorleken är justerbar, och LoRA-finjustering fungerar.
Och avgörande är att tröskeln där modeller blir tillräckliga för vardagliga uppgifter närmar sig. Om frontier-modeller utvecklas bara lite mer kommer vi att gå in i en period där en enda modell tjänar rutinarbete under ganska lång tid. Det är då ekonomin i en dedikerad speldosa håller i sig.
Nvidia förvärvade Groq för 20 miljarder dollar, SoftBank slukade Graphcore, Intel tog initiativ till SambaNova. En massiv våg mot inferensspecifikt kisel håller på att bildas just nu. Taalas står på sin mest radikala kant. Den första produkten börjar med Llama uthuggen i kisel, följt av en mellanstor resonemangsmodell på våren och en frontier-modell på vintern.
En mycket snabb AI är en fundamentalt annorlunda AI. När latens under millisekunder blir möjlig blir scenarier vi bara kan föreställa oss verkliga. Inte ett internationellt samtal – känslan av att springa bredvid någon och prata i full fart. Taalas öppnades som beta även om dess första modell ännu inte är frontier. Bakom det finns ett självförtroende: känn själv vad som blir möjligt i den här hastigheten.
...

Topp
Rankning
Favoriter
