Tijdens de CES-conferentie was de gloednieuwe Rubin-architectuur van NVIDIA het onderwerp van recente marktbesprekingen. Wat betreft de MOE-architectuur is dit een andere grote doorbraak, speciaal ontworpen voor het tijdperk van Agentic AI, enzovoort. Ik heb er dieper naar gekeken en voelde echt de "zelfrevolutie" van Jensen Huang: 1) In het verleden was NVIDIA afhankelijk van de voordelen van GPU-hardware en profiteerde het van de periode waarin grote AI-bedrijven massaal rekenkracht aankochten om grote modellen te trainen. Toen was de logica heel eenvoudig: wie de meeste grafische kaarten had, kon de beste modellen trainen. Maar nu is de AI-oorlog verschoven van het "rekenkracht"-front naar het "redeneren", vooral met de komst van het Agentic-tijdperk, waarbij AI hoge frequenties, meerdere stappen en zeer lange contexten moet verwerken. Op dit moment zijn de modelparameters vaak in de triljoenen, en de datadoorvoer is enorm. Als een GPU ook maar snel rekent, maar het geheugen niet snel genoeg gegevens kan doorgeven, dan draait de GPU leeg. Dit is de "geheugenwand". Met andere woorden, het hebben van meer grafische kaarten lost het probleem niet op; er is ook veel geheugen en bandbreedte nodig om dit te ondersteunen. Rubin moet dit probleem oplossen. 2) Daarom is de HBM4 die Rubin lanceert de vierde generatie hoge-bandbreedte-geheugen, waarmee de bandbreedte tot 22TB/s kan worden verhoogd. Maar nog belangrijker is dat het samenwerkt met de NVLink 6-technologie (bandbreedte binnen het rek van 260TB/s), waardoor 72 kaarten logisch worden samengevoegd tot "één enorme chip". Wat betekent dit? Vroeger kocht je grafische kaarten als afzonderlijke componenten, en de gegevensoverdracht tussen de kaarten was als een pakket dat door verschillende tussenstations moest gaan. Nu laat Rubin, door middel van extreem hoge dichtheid van interconnecties, de gegevens tussen verschillende GPU's bijna zonder fysieke afstand stromen. 72 werknemers werken niet meer afzonderlijk, maar delen één brein. Ik denk dat dit de echte troef van Rubin is: niet simpelweg hardwareparameters opstapelen, maar de hele systeemdataflow opnieuw structureren. 3) Als MOE (Mixed Expert Model Architecture) een dimensie-daling was voor NVIDIA door nieuwkomers zoals DeepSeek die het "gewelddadig stapelen van kaarten"-businessmodel van NVIDIA ondermijnden, dan is Rubin hoe dan ook een strategische tegenaanval van Jensen Huang. Het gaat er niet meer om wie zuiniger met kaarten omgaat, maar om de kosten van AI-gebruik direct te herstructureren. Natuurlijk betekent deze zet ook dat NVIDIA volledig afscheid moet nemen van het oude model van gewelddadig stapelen van kaarten. Jensen Huang rekent op een andere manier. Het Agentic-tijdperk moet echt worden geïmplementeerd in duizenden industrieën, en daarvoor moet de drempel van de token-kosten worden overwonnen. Dit is een trend die NVIDIA niet kan negeren. Volgens Huang is het beter om niet te wachten tot grote bedrijven zoals Google en Meta de markt met zelfontwikkelde chips opeten, of dat DeepSeek de aanbodzijde van de markt ondermijnt met hun modellen. Het is beter om zelf de doorbraak te zijn. 4) De vraag is nu: hoe moet NVIDIA zich positioneren na deze zelfrevolutie? Het pad is ook heel duidelijk: van "grafische kaarten verkopen" naar "systemen verkopen", van het bedienen van een paar grote bedrijven naar het echt toegankelijk maken van AI. Vroeger, als je een H100 kocht, verdiende NVIDIA altijd alleen dat deel van het geld van de grafische kaart. De toekomstige Rubin zal je vertellen: je moet een complete NVL72-rack kopen - 72 GPU's, NVLink Switch, volledig vloeistofgekoeld systeem, kast, en zelfs de bijbehorende softwarestack, alles verpakt en aan jou verkocht. Jensen Huang's rekensom is ook heel duidelijk. Het lijkt erop dat de kosten van de verpakte hardware hoger zijn, maar het biedt extreme redeneringsefficiëntie, waardoor de eenheidskosten voor AI-gebruik door de koper worden verlaagd, en natuurlijk zal het marktaandeel niet verloren gaan. Maar, maar, maar, deze aanpak verhoogt ook de drempel voor kleine en middelgrote spelers. Alleen grote bedrijven en cloudserviceproviders kunnen dit zich veroorloven, wat de monopolies op rekenkracht verder zal verergeren. In de huidige concurrentiesituatie is dit een grote gok, want als er problemen zijn met de massaproductie van HBM4, kunnen AMD, Google TPU en anderen de kans grijpen om alternatieven te lanceren, en dan kan de droom van NVIDIA om systemen te verkopen misschien niet zo gemakkelijk te realiseren zijn.