Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Lors de la conférence CES, la toute nouvelle architecture Rubin de NVIDIA est devenue le sujet de discussion sur le marché, un autre grand pas en avant après l'architecture MOE, conçue sur mesure pour l'ère de l'IA agentique, etc. J'ai approfondi le sujet et j'ai effectivement ressenti le goût de la "révolution personnelle" de Jensen Huang :
1) Par le passé, NVIDIA s'appuyait sur l'avantage matériel des GPU, profitant de la période où les grands acteurs de l'IA achetaient frénétiquement de la puissance de calcul pour entraîner de grands modèles. À l'époque, la logique était simple : celui qui avait le plus de cartes graphiques pouvait entraîner le meilleur modèle.
Mais maintenant, la guerre de l'IA s'est déplacée du champ de bataille de la "puissance de calcul" à celui de "l'inférence", surtout avec l'arrivée de l'ère agentique, où l'IA doit traiter des inférences à haute fréquence, multi-étapes et avec un contexte ultra-long.
À ce moment-là, les paramètres du modèle atteignent facilement des trillions, et le débit de données est énorme. Peu importe la rapidité des calculs des GPU, si la mémoire ne transmet pas les données assez rapidement, le GPU tourne à vide, c'est ce qu'on appelle le "mur de la mémoire". En d'autres termes, avoir plus de cartes graphiques ne résout plus le problème, il faut également une grande mémoire et une bande passante pour soutenir cela. Rubin doit résoudre ce problème.
2) Ainsi, le HBM4 lancé par Rubin est le quatrième type de mémoire à large bande, permettant d'atteindre une bande passante de 22 To/s. Mais ce qui est encore plus crucial, c'est qu'il s'associe à la technologie NVLink 6 (bande passante de 260 To/s dans le rack), transformant logiquement 72 cartes en "une seule puce géante".
Qu'est-ce que cela signifie ? Auparavant, lorsque vous achetiez une carte graphique, vous achetiez des composants indépendants, et les données entre les cartes circulaient comme des colis devant passer par plusieurs stations de transit. Maintenant, Rubin, grâce à une interconnexion de très haute densité, permet aux données de circuler entre différents GPU sans presque ressentir la distance physique, les 72 travailleurs ne font plus chacun leur propre tâche, mais partagent un seul cerveau.
Je pense que c'est là le véritable atout de Rubin : il ne s'agit pas simplement d'accumuler des paramètres matériels, mais de reconstruire le flux de données de l'ensemble du système.
3) Si l'on considère que le MOE (Modèle d'Experts Mixtes) est une attaque de dimension contre le modèle commercial "d'accumulation violente de cartes" d'anciens comme DeepSeek, alors Rubin est clairement une contre-attaque stratégique de Jensen Huang. Il ne s'agit plus de comparer qui utilise le moins de cartes, mais de reconstruire directement le coût d'utilisation de l'IA. Bien sûr, cette manœuvre signifie également qu'NVIDIA doit dire adieu au vieux modèle d'accumulation violente de cartes.
Jensen Huang fait un autre calcul : pour que l'ère agentique se concrétise dans des milliers de secteurs, il faut franchir le cap du coût des tokens, ce qui est une tendance que NVIDIA ne peut pas ignorer.
Pour Jensen Huang, plutôt que d'attendre que des géants comme Google ou Meta grignotent le marché avec leurs puces auto-développées, ou que des entreprises comme DeepSeek perturbent le marché de l'offre avec leurs modèles, il vaut mieux être celui qui brise le statu quo.
4) La question se pose : comment NVIDIA, après sa révolution personnelle, se positionnera-t-elle ? Le chemin est clair : passer de "vendre des cartes graphiques" à "vendre des systèmes", de servir quelques grands acteurs à rendre l'IA véritablement accessible.
Auparavant, lorsque vous achetiez un H100, NVIDIA ne gagnait que sur le prix de la carte graphique. Avec Rubin, on vous dira : vous devez acheter l'ensemble du système NVL72 - 72 GPU, un commutateur NVLink, un système de refroidissement liquide complet, un rack, et même un ensemble de logiciels, le tout vendu en package.
Le calcul de Jensen Huang est également clair : bien que le coût matériel après emballage semble plus élevé, il est associé à une efficacité d'inférence extrême, réduisant ainsi le coût unitaire d'utilisation de l'IA pour l'acheteur, ce qui ne fera pas perdre de parts de marché.
Mais, mais, mais, ce modèle impose également un seuil plus élevé pour les petits et moyens acteurs. Seules les grandes entreprises et les fournisseurs de services cloud pourront se le permettre, ce qui aggravera encore le monopole de la puissance de calcul. Dans le contexte concurrentiel actuel, c'est un véritable pari, car si la production en série du HBM4 rencontre des problèmes, des alternatives lancées par AMD, Google TPU, etc., pourraient saisir l'opportunité, rendant le rêve de NVIDIA de vendre des systèmes beaucoup plus difficile à réaliser.
Meilleurs
Classement
Favoris
