3 ĐIỀU QUAN TRỌNG VỀ THỎA THUẬN $NVDA + GROQ 1. Đây là về việc sở hữu kinh tế suy diễn, không phải là khắc phục khoảng cách chip Nvidia không thuê Groq vì họ bị tụt lại trong việc sản xuất chip, vì Nvidia đã thống trị đào tạo và hầu hết suy diễn & lộ trình của họ (GB300, Rubin) tiếp tục giảm chi phí trên mỗi token trong khi mở rộng hiệu suất nhanh hơn gần như bất kỳ ai khác. Đào tạo là một sự kiện một lần trong khi suy diễn là nơi mô hình kinh doanh AI mới tồn tại, vì vậy khi AI chuyển sang sản phẩm thực, tiền sẽ chuyển sang ai kiểm soát thời gian chạy. 2. Tương lai nơi suy diễn thoát khỏi Nvidia vừa được hấp thụ Groq là một trong số ít bằng chứng đáng tin cậy rằng suy diễn nhạy cảm với độ trễ có thể cuối cùng chuyển ra khỏi GPU và theo thời gian điều đó sẽ làm giảm vị thế "không thể tránh khỏi" của Nvidia. Rủi ro đã được khuếch đại bởi người sáng lập Groq, Jonathan Ross, người trước đây đã xây dựng TPU tại $GOOGL và đã chứng minh rằng silicon tùy chỉnh có thể cạnh tranh trong các khối lượng công việc thực. Thỏa thuận này đóng cửa trước khi nó có thể mở rộng. 3. Suy diễn xác định là lớp còn thiếu GPU xuất sắc về tính linh hoạt và quy mô nhưng chúng chưa bao giờ được thiết kế để đảm bảo thời gian phản hồi hoàn toàn nhất quán. Điều đó quan trọng vì AI trong thế giới thực bị hỏng khi độ trễ không ổn định: trợ lý giọng nói dừng lại, dịch trực tiếp bị chậm, quy trình làm việc tự động tích lũy độ trễ. Groq đã giải quyết điều này bằng cách thiết kế xung quanh một lượng lớn SRAM bằng cách giữ dữ liệu gần với bộ xử lý và cung cấp phản hồi nhanh mỗi lần. Điều đó khiến Groq phù hợp một cách độc đáo cho AI thời gian thực nơi độ trễ quan trọng hơn thông lượng tối đa. Tại thời điểm này, thật khó để tranh luận rằng Nvidia chỉ bán chip khi rõ ràng họ đang xây dựng nền tảng sở hữu đào tạo, mạng lưới, và bây giờ là suy diễn thời gian thực. $20B hôm nay để tránh một vấn đề $200B sau này.