Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Øyeblikket etterretningen ble hugget i stein
Menneskeheten gjør noe sinnssykt akkurat nå. Bygge datasentre på størrelse med byer, bygge kraftverk ved siden av, skyte opp satellittnettverk og kjølerom fulle av superdatamaskiner som bruker hundrevis av kilowatt med væskekjølingssystemer. Alt for å kjøre AI. Overbevist om at dette er fremtiden.
Men historien forteller en annen historie. Hver teknologisk revolusjon har startet med monstrøse prototyper, og disse monstrene forsvant i det øyeblikket et praktisk gjennombrudd kom. Husker du ENIAC? Et vakuumrør-beist som fylte et helt rom. Det viste menneskeheten magien i databehandling, men det var tregt, dyrt og kunne aldri skaleres. Så kom transistoren, og alt endret seg. Arbeidsstasjoner, PC-er og smarttelefoner fulgte. Verden valgte å overskride ENIAC i stedet for å bygge flere av dem. GPU-datasentrene vi bygger i dag er AIs ENIAC. De fungerer. De blender. Men dette er ikke slutten.
Før du leser videre, gå til nettsiden nedenfor og spør om hva som helst. Tretti sekunder er alt som trengs. Du må kjenne dette i kroppen din.
En LLM har kommet hvor svaret allerede er der i det øyeblikket du trykker enter. Vi har levd som om latens i AI-svar bare var slik ting er. Derfor er dette et sjokk som ingen målestokk kan formidle.
Generell databehandling endret verden fordi den ble rask, billig og enkel å bygge. AI vil følge samme vei. Problemet er at dagens AI ikke er i nærheten av den veien. Når du stiller AI et spørsmål, støtter den haken på hånden og tenker en stund. Kodingsassistenter stirrer tomt i flere minutter før de gir et svar, noe som ødelegger flyten din. Selv når det trengs raske svar, får du bare et rolig svar. Å snakke med AI er fortsatt som å ringe internasjonalt. Snakk, vent, vent litt til. Denne latensen er muren mellom mennesker og AI.
Kostnadsproblemet er verre. Å drive dagens AI krever enormt utstyr og kapital. HBM-stabler, komplekse I/O, kabler, væskekjøling, avansert pakking, 3D-stabling. Hvorfor er alt dette nødvendig? Fordi stedet som husker og stedet som tenker er adskilt.
Tenk på det slik. Hjernen din er i Seoul, men alle minnene dine er lagret i et lager i Busan. Hver gang du må tilbakekalle noe, må du ta KTX-en til Busan for å hente det. Moderne AI-maskinvare har akkurat denne strukturen. Minne (DRAM) er stort og billig, men sitter utenfor brikken, noe som gjør tilgangen tusenvis av ganger tregere enn minne på brikken. Og du kan heller ikke legge DRAM inn i beregningsbrikken — produksjonsprosessene er fundamentalt forskjellige. Denne motsetningen skaper all kompleksiteten i AI-maskinvare. For å redusere tur-retur-turen mellom Seoul og Busan, legger vi ut HBM som et høyhastighetstog, bygger 3D-stabling som høyhus og kjører væskekjøling som massiv aircondition. Naturligvis skyter strømforbruket i været og kostnadene skyter i været.
Taalas snudde dette fra bunnen av. I stedet for å hente minner fra Busan, plantet de dem direkte inne i hjernen. De forente minne og beregning på én brikke med DRAM-nivå tetthet. Deretter gikk de et steg videre: de bygde dedikert silisium for hver modell. Ikke ferdig fra stativet — skreddersydd skreddersøm. Gjennom datateknologiens historie har dyp spesialisering alltid vært den sikreste veien til ekstrem effektivitet. Taalas presset dette prinsippet til det absolutte ytterste.
Hvordan er dette mulig? De risser modellens lærte kunnskap — dens vekter — direkte inn i metalllagene av silisium. Intelligens, bokstavelig talt hugget i stein. En enkelt transistor holder en vekt samtidig som den utfører multiplikasjon. Den husker og tenker samtidig. Med grunnlegger Ljubisa Bajics ord, er dette «ikke kjernefysikk — det er et smart triks som ingen så fordi ingen gikk denne veien.» De beholder brikkens skjelett intakt og bytter bare ut to metalllag for å tilpasse det til en spesifikk modell. Ulike tatoveringer på samme kropp. På TSMCs 6nm-prosess tar det to måneder fra modellvekter til et fungerende kort.
HC1-brikken, med Llama 3.1 8B inngravert i silisiumet, behandler omtrent 17 000 tokens per sekund per bruker. Nvidias H200 gjør 230, B200 353, Groq 594, SambaNova 932, Cerebras 1 981. Alle andre sykler. Taalas tok et jetfly. Ett kort trekker 200 watt. Ti kort i en server, 2 500 watt. En vifte er nok. Den kobles rett til ethvert datasenter som er bygget de siste tretti årene. Produksjonskostnad: en tjuendedel. Kraft: en tidel. Ingen HBM, ingen avansert emballasje, ingen 3D-stabling, ingen væskekjøling.
Ingenting er gratis, selvfølgelig. Hvis en generell GPU er en høyttaler som kan spille hvilken som helst sang, er en Taalas-brikke en musikkdåse som spiller én melodi feilfritt. Det er ikke smart, og når modellen endres, trenger du en ny brikke. Men kontekststørrelsen kan justeres, og finjustering av LoRA fungerer.
Og viktigst av alt, terskelen der modeller blir tilstrekkelige for daglige oppgaver nærmer seg. Hvis grensemodeller utvikler seg bare litt mer, vil vi gå inn i en periode hvor én enkelt modell tjener rutinearbeid i lang tid. Det er da økonomien i en dedikert spilledåse holder seg.
Nvidia kjøpte Groq for 20 milliarder dollar, SoftBank slukte Graphcore, Intel rakte ut for SambaNova. En massiv bølge mot inferens-spesifikt silisium dannes akkurat nå. Taalas står på sin mest radikale kant. Det første produktet begynner med Llama skåret i silisium, etterfulgt av en mellomstor resonnementmodell om våren og en frontier-modell om vinteren.
En veldig rask AI er en fundamentalt annerledes AI. Når latens under millisekunder blir mulig, blir scenarier vi bare kan forestille oss virkelige. Ikke en internasjonal samtale — følelsen av å løpe ved siden av noen og snakke i full fart. Taalas åpnet som beta selv om den første modellen ennå ikke er på grensen. Bak det ligger en selvtillit: kjenn selv hva som blir mulig i dette tempoet.
...

Topp
Rangering
Favoritter
