Under CES-konferensen har NVIDIAs nylanserade Rubin-arkitektur blivit fokus för de senaste marknadsdiskussionerna, vad är ett annat stort genombrott utöver MOE-arkitekturen, vad som är anpassat för Agentic AI-eran, etc., jag tittade närmare och kände doften av Lao Huangs "självrevolution": 1) Tidigare förlitade sig Nvidia på fördelarna med GPU-hårdvaran och utnyttjade utdelningsperioden då stora AI-jättar febrilt köpte datorkraft för att träna stora modeller. Vid den tiden var logiken väldigt enkel: den som hade flest grafikkort kunde träna den bästa modellen. Men nu har AI-krigföring skiftat från "datorkraft"-slagfältet till "inferens", särskilt efter Agentic-erans ankomst, AI måste hantera högfrekvent, flerstegs- och ultralånga kontextuella resonemang. Vid denna tidpunkt är modellparametrarna biljoner, dataflödet är extremt stort, oavsett hur snabbt grafikkortet är, om minnesdatan inte är tillräckligt snabb måste GPU:n vara inaktiv, vilket är "lagringsväggen", med andra ord kan grafikkortet inte längre lösa problemet och behöver fortfarande hög videominnes- och bandbredd för att stödja det. Det var det Rubin försökte lösa. 2) Därför kan Rubins första HBM4 stödja fjärde generationen högbandbreddsminne, vilket kan göra bandbredden till 22 TB/s. Men viktigare är att den samarbetar med NVLink 6-teknologin (260TB/s bandbredd i racket), vilket logiskt förvandlar 72 kort till "ett jättestort chip". Vad betyder detta? Tidigare, när man köpte ett grafikkort, köpte man oberoende komponenter, och dataöverföringen mellan korten var som en kurir som passerade flera överföringsstationer. Nu använder Rubin extremt högdensitetssammankopplingar för att få data att flöda mellan GPU:er med nästan inget fysiskt avstånd, och 72 arbetare arbetar inte längre separat utan delar en hjärna. Jag tror att detta är Rubins verkliga avgörande drag: inte bara stapla hårdvaruparametrar, utan att refaktorera dataflödet i hela systemet. 3) Om MOE (Hybrid Expert Model Architecture) är ett smäll för dimensionsreduktion mot Nvidias affärsmodell för "violent stacking card" av stigande stjärnor som DeepSeek, så är Rubin en strategisk motattack från Lao Huang oavsett hur man ser på det. Självklart innebär detta knep också att Nvidia måste säga adjö till den gamla modellen med våldsam kortstapling. Lao Huang räknar ut ett annat konto, om Agentic-eran verkligen landar i tusentals branscher måste den ta sig förbi tröskeln tokenkostnad, vilket är den allmänna trenden som Nvidia inte kan hålla. Enligt Lao Huang är det istället för att vänta på att bli inkräktad av Google, Meta och andra stora tillverkare för att tränga in på marknaden, eller att bli undergrävda av DeepSeek och andra modeller, bättre att ta initiativet och vara den som bryter spelet. 4) Frågan är, hur kommer Nvidia att hantera sig självt efter självrevolutionen? Vägen är också mycket tydlig, från att "sälja grafikkort" till att "sälja system", från att betjäna några stora tillverkare till att göra AI verkligt populär. Tidigare, när du köpte H100, tjänade Nvidia pengar på grafikkortet, och Rubin kommer att berätta för dig i framtiden: du måste köpa ett komplett set NVL72-rack – 72 GPU:er, NVLink Switch, komplett vätskekylsystem, skåp och till och med stödjande mjukvarustackar, allt paketerat och sålt till dig. Lao Huangs abakus är också mycket tydlig, det verkar som att kostnaden för färdig hårdvara är dyrare, men med tillägget av extrem resonemangseffektivitet sänks enhetskostnaden för köparens AI, och den förlorar naturligtvis inte marknadsandel. Men tröskeln för små och medelstora spelare är också högre. Endast stora tillverkare och molntjänstleverantörer har råd att delta, vilket ytterligare kommer att förvärra monopolet på datorkraft. I den nuvarande konkurrenssituationen kan det kallas en stor chansning, eftersom när det uppstår problem med massproduktionen av HBM4 kommer den att ersättas av alternativ lanserade av AMD, Google TPU och andra alternativ som utnyttjar tidsfönsterperioden, och Nvidias dröm om att sälja systemet kanske inte är lika lätt att förverkliga.