Trong thời gian diễn ra hội nghị CES, kiến trúc Rubin mới được NVIDIA giới thiệu đã trở thành tâm điểm của các cuộc thảo luận trên thị trường gần đây, một bước đột phá lớn bên cạnh kiến trúc MOE, được thiết kế riêng cho thời đại AI Agentic, v.v. Tôi đã xem xét kỹ lưỡng và thực sự cảm nhận được hương vị của "cuộc cách mạng tự thân" của Huang: 1) Trước đây, NVIDIA phụ thuộc vào lợi thế phần cứng GPU, đã tận dụng thời kỳ bùng nổ khi các ông lớn AI đang điên cuồng mua sắm sức mạnh tính toán để đào tạo các mô hình lớn. Lúc đó, logic rất đơn giản, ai có nhiều card đồ họa hơn thì có thể đào tạo ra mô hình tốt nhất. Nhưng bây giờ, cuộc chiến AI đã chuyển từ chiến trường "sức mạnh tính toán" sang "suy diễn", đặc biệt là sau khi thời đại Agentic đến, AI cần xử lý suy diễn với tần suất cao, nhiều bước và ngữ cảnh siêu dài. Lúc này, số lượng tham số của mô hình có thể lên đến hàng nghìn tỷ, lưu lượng dữ liệu rất lớn, GPU tính toán nhanh đến đâu, nếu bộ nhớ không truyền dữ liệu đủ nhanh, GPU sẽ phải chạy không tải, đó chính là "bức tường lưu trữ", nói cách khác, có nhiều card đồ họa cũng không giải quyết được vấn đề, mà còn cần bộ nhớ cao và băng thông để hỗ trợ. Rubin sẽ giải quyết vấn đề này. 2) Vì vậy, HBM4 được Rubin ra mắt lần đầu tiên chính là bộ nhớ băng thông cao thế hệ thứ tư, có thể đạt băng thông lên đến 22TB/s. Nhưng điều quan trọng hơn là nó kết hợp với công nghệ NVLink 6 (băng thông trong khung 260TB/s), biến 72 card thành "một con chip khổng lồ" về mặt logic. Điều này có nghĩa là gì? Trước đây, khi bạn mua card đồ họa, bạn mua từng thành phần độc lập, dữ liệu giữa các card truyền tải giống như bưu phẩm phải qua nhiều trạm trung chuyển. Bây giờ, Rubin thông qua kết nối mật độ cao, cho phép dữ liệu luân chuyển giữa các GPU mà gần như không cảm nhận được khoảng cách vật lý, 72 công nhân không còn làm việc riêng lẻ, mà chia sẻ một bộ não lớn. Tôi nghĩ đây mới là đòn sát thủ thực sự của Rubin: không chỉ đơn thuần là tích lũy thông số phần cứng, mà là tái cấu trúc luồng dữ liệu của toàn bộ hệ thống. 3) Nếu nói MOE (kiến trúc mô hình chuyên gia hỗn hợp) là một đòn đánh hạ thấp của NVIDIA trước các đối thủ mới nổi như DeepSeek, thì Rubin nhìn chung là một cuộc phản công chiến lược của Huang, không còn so sánh ai tiết kiệm card hơn, mà là trực tiếp tái cấu trúc chi phí sử dụng AI. Tất nhiên, việc đưa ra chiêu thức này cũng có nghĩa là NVIDIA hoàn toàn phải nói lời tạm biệt với mô hình cũ của việc tích lũy card đồ họa. Huang đang tính toán một phép toán khác, thời đại Agentic muốn thực sự hiện thực hóa trong hàng ngàn ngành nghề, phải vượt qua rào cản chi phí Token, đây là xu thế mà NVIDIA không thể giữ lại. Theo Huang, thay vì chờ đợi bị Google, Meta và các công ty lớn khác tự phát triển chip xâm chiếm thị trường, hoặc bị DeepSeek và các công ty khác làm đảo lộn thị trường cung cấp, thì tốt hơn là chủ động trở thành người phá vỡ. 4) Vấn đề đặt ra là, NVIDIA sau cuộc cách mạng tự thân sẽ tự định hình như thế nào? Con đường cũng rất rõ ràng, từ "bán card đồ họa" chuyển thành "bán hệ thống", từ phục vụ một số ít công ty lớn chuyển thành làm cho AI thực sự phổ biến. Trước đây, khi bạn mua H100, NVIDIA chỉ kiếm được phần tiền từ card đồ họa, nhưng với Rubin, bạn sẽ được thông báo: bạn phải mua cả bộ khung NVL72 - 72 GPU, NVLink Switch, hệ thống làm mát bằng chất lỏng toàn bộ, tủ rack, thậm chí bao gồm cả phần mềm đi kèm, tất cả sẽ được đóng gói bán cho bạn. Kế hoạch của Huang cũng rất rõ ràng, nhìn có vẻ như chi phí phần cứng sau khi đóng gói cao hơn, nhưng đã thêm vào hiệu suất suy diễn cực kỳ cao, giảm chi phí đơn vị sử dụng AI cho bên mua, và tự nhiên sẽ không mất thị phần. Nhưng nhưng nhưng, cách chơi này cũng đặt ra ngưỡng cao hơn cho các người chơi nhỏ và vừa. Chỉ có các công ty lớn và nhà cung cấp dịch vụ đám mây mới có thể tham gia, điều này sẽ càng làm trầm trọng thêm sự độc quyền về sức mạnh tính toán. Trong bối cảnh cạnh tranh hiện tại, đây được coi là một canh bạc lớn, vì nếu HBM4 gặp vấn đề trong sản xuất hàng loạt, sẽ bị AMD, Google TPU và các giải pháp thay thế khác nắm bắt thời cơ đưa ra, thì giấc mơ bán hệ thống của NVIDIA có thể không dễ dàng thực hiện.