Durante la conferencia CES, la recién lanzada arquitectura Rubin de NVIDIA se ha convertido en el centro de las recientes discusiones de mercado, cuál es otro gran avance además de la arquitectura MOE, qué está adaptado para la era de la IA Agente, etc., lo observé más de cerca y sí sentí el olor de la "autorevolución" de Lao Huang: 1) En el pasado, Nvidia dependía de las ventajas del hardware de la GPU, aprovechando el periodo de dividendos cuando los grandes gigantes de la IA compraban frenéticamente potencia de cálculo para entrenar modelos de gran tamaño. En ese momento, la lógica era muy sencilla: quien tuviera más tarjetas gráficas podía entrenar el mejor modelo. Pero ahora la guerra de la IA ha pasado del campo de batalla de la "potencia de cálculo" a la "inferencia", especialmente tras la llegada de la era Agentic, la IA necesita lidiar con razonamientos contextuales de alta frecuencia, varios pasos y ultralargos. En este momento, los parámetros del modelo son billones, el rendimiento de datos es extremadamente grande, no importa lo rápido que sea la GPU, si los datos de memoria no son lo suficientemente rápidos, la GPU tiene que quedarse inactiva, que es la "pared de almacenamiento", es decir, la tarjeta gráfica ya no puede resolver el problema y sigue necesitando una alta memoria de vídeo y ancho de banda para soportarla. Eso es lo que Rubin intentaba resolver. 2) Por lo tanto, el primer HBM4 de Rubin puede soportar la cuarta generación de memoria de alto ancho de banda, lo que puede hacer que el ancho de banda alcance los 22TB/s. Pero lo más importante es que coopera con la tecnología NVLink 6 (260TB/s de ancho de banda en el rack), lo que lógicamente convierte 72 tarjetas en "un chip gigante". ¿Qué significa esto? Antes, cuando comprabas una tarjeta gráfica, comprabas componentes independientes, y la transmisión de datos entre tarjetas era como un mensajero que pasaba por varias estaciones de transferencia. Ahora Rubin utiliza interconexiones de altísimo nivel para hacer que los datos fluyan entre GPUs con casi ninguna distancia física, y 72 trabajadores ya no trabajan por separado, sino que comparten cerebro. Creo que esta es la verdadera jugada clave de Rubin: no solo apilar parámetros de hardware, sino refactorizar el flujo de datos de todo el sistema. 3) Si MOE (Arquitectura de Modelos Expertos Híbridos) es un golpe de reducción de dimensionalidad para el modelo de negocio de "tarjetas apiladas violentas" de Nvidia por parte de estrellas emergentes como DeepSeek, entonces Rubin es un contraataque estratégico de Lao Huang, sea como sea que lo mires. Por supuesto, este truco también significa que Nvidia tiene que despedirse del viejo modelo de apilamiento violento de cartas. Lao Huang calcula otra cuenta: si la era Agentica realmente llega a miles de industrias, debe superar el obstáculo del coste de los tokens, que es la tendencia general que Nvidia no puede mantener. En opinión de Lao Huang, en lugar de esperar a que Google, Meta y otros grandes fabricantes se infiltren en el mercado, o que DeepSeek y otros modelos los subviertan, es mejor tomar la iniciativa para ser quien rompa el juego. 4) La pregunta es, ¿cómo se enfrentará Nvidia a sí misma después de la autorevolución? El camino también está muy claro, desde "vender tarjetas gráficas" hasta "vender sistemas", desde servir a unos pocos grandes fabricantes hasta hacer que la IA sea realmente popular. En el pasado, cuando comprabas el H100, Nvidia ganaba dinero con la tarjeta gráfica, y Rubin te lo dirá en el futuro: tienes que comprar un conjunto completo de racks NVL72: 72 GPUs, una switch NVLink, sistema completo de refrigeración líquida, armarios e incluso pilas de software compatibles, todo empaquetado y vendido a ti. El ábaco de Lao Huang también es muy claro: parece que el coste del hardware empaquetado es más caro, pero con la adición de una eficiencia de razonamiento extrema, el coste unitario de la IA del comprador se reduce y, naturalmente, no perderá cuota de mercado. Pero el umbral para jugadores pequeños y medianos también es más alto. Solo los grandes fabricantes y proveedores de servicios en la nube pueden permitirse participar, lo que agravará aún más el monopolio de la potencia computacional. En la situación competitiva actual, puede considerarse una gran apuesta, porque una vez que surja un problema con la producción en masa de HBM4, será reemplazado por alternativas lanzadas por AMD, Google TPU y otras alternativas que aprovechan el periodo de oportunidad, y el sueño de Nvidia de vender el sistema puede no ser tan fácil de cumplir.