Test CSRD : où la chaîne de données IT se rompt
Eva Mickler
5 Min. Temps de lecture Les premiers audits CSRD pour l'exercice 2025 seront signés au deuxième trimestre ...
6 min. Temps de lecture
NVIDIA Vera Rubin (NVL576) est en production complète. AWS, Google Cloud et Microsoft Azure déploient déjà la nouvelle architecture. Les DSI qui calculent encore leurs roadmap d’infrastructure IA pour 2026/2027 sur la base de Hopper planifient, avec des courbes de coûts qui dépassent la réalité par un facteur 10 – dans la mauvaise direction.
Les points clés en bref
Qu’est-ce que NVIDIA Vera Rubin ? Vera Rubin (internement NVL576) est la nouvelle architecture de NVIDIAs pour la génération Blackwell. Le nom rend hommage à l’astronome Vera Rubin. Le NVL576 combine 576 cœurs de calcul Vera Rubin avec la nouvelle technologie d’interconnexion NVLink de NVIDIAs et est optimisé pour les workloads d’inférence – soit le fonctionnement productif de modèles IA entraînés – offrant une efficacité en termes de tokens par watt 10 fois supérieure à celle de la génération précédente, le H100.
En lien : cloudmagazin : Kubernetes 1.36 Haru – Liste de contrôle pour la mise à niveau de l’infrastructure
Le chiffre pertinent pour les DSI n’est pas la performance des GPU en FLOPS – mais le prix par million de tokens de sortie en production. Sur H100, l’inférence similaire à GPT-4 coûte, selon la charge et le fournisseur cloud, entre 8 et 15 USD par million de tokens de sortie. Vera Rubin ramène cette courbe à environ 0,8 à 1,5 USD – soit un facteur 10 moins cher.
Comparaison des coûts des tokens (inférence, cloud, équivalent modèle de 70 milliards de paramètres)
H100 (Hopper, 2023)
~10 $
par 1 million de tokens de sortie
B200 (Blackwell, 2025)
~3 $
par 1 million de tokens de sortie
Vera Rubin (2026)
~1 $
par 1 million de tokens de sortie
Ce que cela signifie pour les cas d’usage business : une entreprise qui dépense aujourd’hui 50 000 USD par mois pour l’inférence IA sur des capacités cloud H100 ne paierait qu’environ 5 000 USD avec Vera Rubin. Une plateforme interne d’assistance IA qui ne semblait pas rentable sur H100 peut fonctionner avec Vera Rubin. Les décisions « faire ou acheter » concernant des serveurs IA on-premise se déplacent nettement vers le cloud.
T1/T2 2026 – Début de la production
NVIDIA lance la production en volume de Vera Rubin NVL576. Google Cloud et AWS reçoivent leurs premières allocations dédiées pour leurs propres charges de travail internes.
T2 2026 – Prévisualisation pour les entreprises
AWS, Google Cloud et Azure ouvrent les capacités Vera Rubin aux clients stratégiques des entreprises dans le cadre d’une prévisualisation privée. La disponibilité dans la région DACH, à Francfort et Amsterdam, est la première priorité.
T3 2026 – À la demande (prévu)
Disponibilité à la demande pour tous les clients entreprises. Tarification basée sur les coûts actuels de production NVIDIA – attendue significativement inférieure aux prix spot des H100 de la même génération.
La stratégie Cloud-First l’emporte
L’On-Premise risque le mauvais investissement
La position pragmatique pour les DSI en 2026 : geler les investissements dans les serveurs IA On-Premise basés sur H100/H200 jusqu’à ce que la disponibilité de Vera Rubin On-Premise soit claire. Réserver à l’avance des capacités d’inférence cloud pour Vera Rubin (Instances Réservées) si votre propre utilisation de l’inférence est prévisible. Interpeller les prestataires de services gérés qui calculent leurs tarifs sur la base Hopper concernant leur feuille de route Vera Rubin.
Plus d’articles du réseau MBF Media
Sources factuelles : NVIDIA GTC 2026, Annonce préalable AWS re:Invent avril 2026, Blog Google Cloud, Blog Microsoft Azure AI Infrastructure.
AWS, Google Cloud et Azure prévoient une disponibilité à la demande pour le T3 2026. Francfort et Amsterdam, en tant que régions UE, sont la priorité absolue pour le déploiement dans la zone DACH. L’accès en avant-première privée peut déjà être demandé pour les clients Enterprise stratégiques dès le T2 2026, via votre account manager respectif.
Le chiffre x10 provient de benchmarks internes chez NVIDIA pour les charges de travail d’inférence dans des conditions optimales. Les chiffres réels en production seront plus faibles : une réduction des coûts de 5 à 7 fois par rapport à la H100 constitue une attente plus réaliste pour les charges de travail productives. Même avec un facteur x5, il s’agit d’une différence stratégiquement significative pour la planification budgétaire de l’infrastructure.
Pas de manière générale. L’infrastructure H100 commandée aujourd’hui et mise en production au T4 2026 bénéficiera encore de 2 à 3 années d’utilisation productive avant la parité avec Vera Rubin sur le segment On-Prem. Les charges de travail de formation (Training) sont moins touchées que l’inférence. La question est : à quoi ai-je besoin de cette capacité GPU ? Pour la scalabilité de l’inférence, attendre Vera Rubin est judicieux. Pour le training, la H100 reste encore justifiable.
Les analyses TCO basées sur les coûts cloud H100 comme référence sous-estiment systématiquement l’attractivité du cloud à partir de 2027. Si vous menez actuellement une analyse d’infrastructure IA, vous devriez intégrer les prix cloud de Vera Rubin comme scénario. Les investissements On-Prem autonomes en IA dépassant 5 millions EUR de volume de projet doivent être analysés explicitement en tenant compte de ce facteur.
AMD MI350 et MI400 arrivent en concurrence mais ne sont pas encore en pleine production. Le Google TPU v6 (Trillium) est déjà en production mais n’est pas disponible pour les clients externes. AWS Trainium 3 et Inferentia 3 sont spécialisés pour le training et l’inférence, mais ne sont pas compatibles GPU pour les charges de travail CUDA existantes. Pour les entreprises DACH sans dépendance propre envers les puces, Vera Rubin via le cloud est l’option la plus pragmatique en 2026.
Source image de couverture : Pexels / panumas nikhomkhai (px:17489157)