21.04.2026

7 min de lecture

La génération Blackwell de NVIDIA est le produit d’infrastructure IA dominant en 2026. Dans le même temps, les B200 et GB200 restent épuisés jusqu’au milieu de l’année, les délais de livraison s’étalant de huit à vingt semaines. Pour les DSI, la question n’est donc pas de savoir si NVIDIA est incontournable, mais quelle part de stratégie doit être intégrée à la pile IA avant que la facture n’arrive et que les alternatives comme l’AMD MI350X ne deviennent sérieuses à considérer.

L’essentiel en bref

  • Pénurie persistante. Les B200 et GB200 sont épuisés jusqu’à mi-2026, backlog de 3,6 millions d’unités. Celui qui commande aujourd’hui planifie avec un délai de livraison de huit à vingt semaines.
  • Les alternatives fonctionnent. L’AMD MI350X est à 25 000 dollars US par GPU, soit 25 à 30 % moins cher que NVIDIA. Pour de nombreuses charges de travail d’inférence, la puissance suffit, la disponibilité est immédiate.
  • L’inférence dans le Cloud est la troisième voie. DGX Cloud, AWS avec Trainium2 et Azure avec des capacités Blackwell découplent la décision d’achat du risque de délai. Cela change la donne pour les GPU on-premise.

Sur le même sujetNIS2 devient opérationnel : Trois décisions pour les instances dirigeantes  /  Edge Computing : Les arbitrages du DSI dans l’architecture d’usine

Ce que la domination de NVIDIA signifie concrètement pour les DSI

Les chiffres sont clairs : le B200 a un prix public de 35 000 à 40 000 dollars US par GPU, un système DGX B200 avec huit GPU se situe entre 350 000 et 400 000 dollars US. Le B300, présent sur le marché du Cloud depuis janvier 2026, est disponible immédiatement en instance Spot, tandis que les commandes on-premise ont un délai de livraison de douze à vingt semaines. Celui qui planifie une usine d’IA au printemps 2026 se construit contre un pipeline que NVIDIA contrôle, et non contre un marché avec plusieurs alternatives réalistes dans le haut de gamme.

Cela ressemble d’abord à un problème de capacité, mais c’est surtout un problème de stratégie. Celui qui attend six mois pour du matériel ne peut pas prendre deux autres décisions pendant ce temps : quels modèles doivent tourner sur quelle infrastructure. Parallèlement, la question de savoir si son cas d’usage a réellement besoin de la classe frontière. La plupart des DSI, pris dans le cycle d’approvisionnement en 2025, ont constaté pendant l’attente qu’une partie des charges de travail prévues pourrait aussi tourner sur des GPU plus petits ou plus anciens. La pénurie a donc un effet d’apprentissage, stratégiquement précieux, tant que la file d’attente ne reste pas la seule réponse.

3,6 M
Backlog NVIDIA Blackwell fin 2025. Les B200 et GB200 restent épuisés jusqu’à mi-2026. Les entreprises ayant un besoin immédiat de capacité se tournent vers des instances Cloud ou des alternatives AMD.
Source : Financial Content Blackwell Market Report, décembre 2025.

Où AMD, AWS et les options cloud sont réalistes

La série MI350X d’AMD est, en 2026, pour la première fois un candidat sérieux pour une infrastructure IA productive. Une MI350X coûte environ 25 000 dollars US, un nœud à huit GPU de Dell, HPE ou Supermicro se situe entre 200 000 et 280 000 dollars US. La consommation électrique est de 750 watts TDP par GPU, un nœud à huit GPU avoisinant les huit kilowatts, ce qui couvre à la fois les centres de données refroidis par air et par liquide. Ses performances suffisent pour de nombreuses charges de travail d’inférence et une grande partie des tâches de RAG et de fine-tuning. Pour l’entraînement des modèles de pointe, l’écosystème logiciel de NVIDIA avec CUDA reste l’option par défaut.

Intel a réduit la voilure sur la ligne Gaudi et a signalé son retrait des accélérateurs IA dédiés, la prochaine génération d’Intel étant prévue pour 2026-2027. Pour les DSI, cela signifie qu’Intel n’est plus une option centrale sur le marché des GPU IA en 2026. AWS a construit en interne une alternative avec Trainium2, qui deviendra intéressante pour les clients déjà sur AWS et prêts à optimiser leurs modèles via les chemins de compilation Trainium. Microsoft et Google proposent des capacités Blackwell et TPU dans leurs clouds, avec différents modèles contractuels et systèmes de pré-réservation.

L’option cloud est, en 2026, la voie réaliste pour de nombreuses entreprises, car elle élimine le risque de délai d’attente lié aux commandes de matériel propriétaire. Ceux qui étaient jusqu’ici enfermés dans une logique on-premise trouveront chez NVIDIA DGX Cloud, AWS Bedrock et Azure Machine Learning des capacités scalables, réservables sans délai. Le prix par heure-GPU est plus élevé qu’en opération propre, mais le calcul n’est rentable qu’à partir d’une utilisation constante, que de nombreuses charges de travail IA en entreprise n’atteignent pas.

Un facteur souvent négligé est le côté logiciel. L’écosystème CUDA de NVIDIA est devenu un standard de facto au cours des dix dernières années. PyTorch, TensorFlow, Triton Inference Server, NeMo et toute la suite NVIDIA AI Enterprise offrent un package cohérent qu’AMD doit encore rattraper avec ROCm. En 2026, ROCm est suffisamment mature pour l’inférence et le fine-tuning, mais pour l’entraînement de modèles de pointe avec des équipes de data science internes, CUDA reste le choix le plus productif. Ceux qui réduisent la décision aux seuls prix matériel sous-estiment l’influence de la chaîne d’outils sur la productivité des équipes.

Pour AWS Trainium2, c’est similaire : le matériel est économiquement attractif, mais son intégration aux frameworks de modèles courants est plus étroitement alignée sur les outils natifs AWS. Pour les entreprises qui ont déjà Inferentia et Trainium dans leurs pipelines, l’évolution est naturelle. Pour les nouveaux projets avec un stack hétérogène, la courbe d’apprentissage semble plus raide qu’avec NVIDIA ou AMD. Le TPU-v5 de Google est construit sur le même modèle : excellente performance dans les environnements Google Cloud, moins de flexibilité pour les setups hybrides.

Trois décisions à prendre en 2026

Pour les directeurs de l’information qui organisent leur stack IA au cours de l’année en cours, trois points de décision se dessinent clairement et ne peuvent plus être reportés.

Ce qui pèse contre NVIDIA sur site

  • Une délai d’attente de six à neuf mois paralyse la planification des projets
  • Un taux d’utilisation inférieur à 60 pour cent rend l’exploitation en cloud plus rentable
  • Les centres de données propres sont souvent mal dimensionnés pour 12 kW par rack
  • Le recrutement de personnel spécialisé dans les opérations GPU n’est ni trivial ni peu coûteux

Ce qui plaide en faveur de NVIDIA sur site

  • La souveraineté des données et les exigences de conformité obligent à disposer d’une infrastructure propre
  • Une utilisation stable et élevée justifie l’investissement en capital
  • La formation de modèles Frontier propres requiert une optimisation CUDA
  • Le personnel GPU existant ainsi que les investissements dans les outils sont préservés

La première décision concerne la stratégie d’infrastructure : sur site, en cloud ou hybride. Pour la majorité des entreprises, il s’agira d’une combinaison, mais le poids relatif de chaque option déterminera les budgets et la planification du personnel. Ceux qui ont jusqu’à présent opté exclusivement pour le cloud devront se demander si une partie des charges de travail stables ne devrait pas être transférée sur du matériel propre. Quant à ceux qui avaient prévu un déploiement exclusif sur site, ils devront accepter qu’une partie des expériences tourne plus rapidement dans le cloud.

La deuxième décision porte sur le choix des fournisseurs. Une stratégie purement NVIDIA est rarement la meilleure option en 2026, tant du point de vue budgétaire que logistique. En pratique, une combinaison de NVIDIA pour l’entraînement et l’inference intensive en CUDA, d’AMD pour l’inference standard et les charges de travail spécialisées, ainsi que d’instances cloud pour la capacité d’urgence, constitue une approche plus robuste. La troisième décision concerne le stack logiciel : quelle couche d’abstraction l’organisation choisit-elle entre le modèle et le matériel ? Des frameworks comme PyTorch et vLLM fonctionnent sur les deux familles de GPU, mais l’intégration dans le monitoring, le scheduling et la facturation des coûts représente l’effort principal.

Un autre point souvent sous-estimé dans le quotidien : la consommation énergétique et les besoins en refroidissement des racks modernes équipés de GPU dépassent ce que beaucoup de centres de données d’entreprise peuvent supporter sans modifications majeures. Un rack B200 avec plusieurs systèmes DGX peut rapidement consommer plus de 100 kilowatts, ce qui exige un refroidissement liquide et une alimentation électrique adaptée. En optant pour l’AMD MI350X, on bénéficie de la possibilité d’un refroidissement par air et d’une consommation réduite, ce qui représente une véritable facilitation pour les centres de données déjà existants. Ces questions ne peuvent pas être résolues uniquement par l’équipe d’approvisionnement ; elles nécessitent une coordination entre l’infrastructure IT, les services techniques et le directeur financier.

La dimension humaine est la quatrième dimension, souvent implicite. Les opérations GPU constituent un domaine très spécifique, et en 2026, le marché est restreint. Les profils seniors ayant une expérience en tuning CUDA, entraînement multi-nœuds et orchestration avec Slurm ou Kubernetes Operators sont difficiles à recruter et donc particulièrement coûteux. Ceux qui adoptent une stratégie sur site devraient prévoir au moins deux à trois postes à temps plein pour l’exploitation, le patching et l’optimisation des performances. Pour beaucoup d’entreprises, cela fait partie du calcul du TCO, qui ne devient clair qu’après l’achat. L’alternative cloud est plus économique à cet égard, car le prestataire intègre une partie des tâches d’exploitation dans son prix. Cela ne signifie pas que le cloud est toujours moins cher ; cela veut dire que la part du personnel doit figurer explicitement dans la décision.

La rédaction des contrats constitue également, en 2026, un domaine sur lequel les directeurs de l’information devraient se pencher sérieusement. Les contrats pluriannuels avec NVIDIA, AMD et les hyperscalers diffèrent nettement en termes de délais de résiliation, de flexibilité en volume et de stabilité des prix. Qui engage sa capacité sur trois ans ne souhaite pas constater, en deuxième année, que son cas d’utilisation a diminué et que les contrats ne permettent aucune adaptation. Les phases pilotes avec des durées plus courtes représentent une entrée pragmatique avant de s’engager sur des périodes plus longues.

Ce que les DSI doivent désormais intégrer dans la planification trimestrielle

Pour la planification trimestrielle de l’agenda des DSI, trois étapes s’avèrent particulièrement pertinentes : elles peuvent être menées en parallèle et n’entravent pas le fonctionnement opérationnel quotidien.

Plan trimestriel du DSI : stack IA 2026
T2 2026
Inventaire des charges de travail : quels jobs d’IA sont actuellement en cours, où, avec quelle utilisation des GPU et à quel coût mensuel ? Résultat : une liste des tâches clairement caractérisée en termes d’intensité d’utilisation.
T2 2026
Prospection auprès des fournisseurs : parallèlement à NVIDIA, solliciter des offres concrètes auprès d’AMD, d’AWS et d’Azure. Non pas comme simple menace, mais afin d’obtenir des prix réels et des délais de livraison précis au sein de l’entreprise.
T3 2026
Pilotage des alternatives : tester deux charges de travail sur AMD MI350X ou sur des solutions cloud alternatives, mesurer directement la qualité et les coûts pour les comparer. Les résultats seront intégrés à la planification budgétaire 2027.
T3 2026
Audit énergétique et des infrastructures : vérifier la capacité des centres de données à supporter plus de 12 kW par rack, et si nécessaire évaluer des options de rénovation ou de colocation.
T4 2026
Mise à jour de la stratégie : synthétiser les résultats des pilotes, des offres des fournisseurs et des comparaisons de coûts dans un document stratégique qui servira de base décisionnelle aux dirigeants et aux organes de surveillance.

L’erreur que beaucoup de DSI ont commise en 2025, c’est d’avoir limité la discussion uniquement à NVIDIA et d’avoir introduit les alternatives trop tard. Les prix et les conditions ne bougent que lorsque des options concrètes sont sur la table. Qui, jusqu’au T3 2026, ne dispose pas d’une offre solide provenant d’AMD ou d’un prestataire cloud, ne négocie pas : il paie simplement le tarif catalogue. Dans les grandes organisations, cela peut rapidement représenter une différence de six chiffres par trimestre.

Enfin, une observation rarement mentionnée dans les présentations au conseil d’administration, mais qui oriente véritablement la direction : en 2026, la décision relative au stack IA n’est plus seulement une question technique. Elle est liée à la planification des coûts énergétiques, à la stratégie de conformité, à la question du site et à la gestion des ressources humaines. Les DSI qui traitent ce sujet comme une problématique purement informatique se verront poser, lors de la prochaine réunion du conseil d’administration, des questions auxquelles ils ne sauront répondre. En revanche, ceux qui abordent le thème de manière transversale et impliquent très tôt les interlocuteurs concernés – achats, services immobiliers et finance – disposeront, à la fin de l’année, d’une stratégie cohérente plutôt que d’une simple collection de décisions isolées.

Questions fréquentes

Est-ce que l’achat de systèmes NVIDIA H100 ou H200 en 2026 reste rentable ?

Pour de nombreux workloads d’inférence, cela peut tout à fait être pertinent. Les H100 sont actuellement disponibles entre 27 000 et 40 000 dollars américains par GPU et sont nettement moins accessibles à court terme que les B200. Ceux qui prévoient le training de modèles Frontier opteront pour Blackwell, mais pour l’inférence productive, la génération Hopper restera économiquement pertinente en 2026.

Quelle est la probabilité d’un changement complet de NVIDIA vers AMD ?

Pour la plupart des entreprises, un changement complet n’est pas réaliste en 2026, car le training et les frameworks basés sur CUDA restent largement orientés vers NVIDIA. Un mix est plus réaliste : AMD sera utilisé pour l’inférence, le fine-tuning standard et les workloads spécialisés, tandis que NVIDIA conservera ses capacités pour le training et les tâches sensibles au CUDA.

Quelle option cloud convient aux entreprises européennes ayant des exigences de protection des données ?

Comment procéder de manière réaliste à une rénovation de data center pour 12 kW par rack ?

Quel rôle jouent Trainium2 ou TPU dans l’IA d’entreprise ?

Plus de contenu du réseau MBF Media

Source de l’image de titre : Pexels / Jeremy Waterhouse (px:3665444)

Partager cet article :

Aussi disponible en

Plus d'articles

05.06.2026

Services de sécurité managés : le RSSI n’est pas seul responsable

Benedikt Langer

8 Min. de lecture Dans de nombreuses entreprises, le CISO est perçu comme le responsable de la sécurité. ...

Lire l'article
04.06.2026

Dette technique : Pourquoi le conseil d’administration doit agir maintenant

Eva Mickler

7 min. de lecture La dette technique n'apparaît dans aucun bilan, mais elle coûte réellement à chaque ...

Lire l'article
03.06.2026

Espaces de données : Où l’industrie intelligente et la ville intelligente se rencontrent

Eva Mickler

8 min de lecture Longtemps, les données industrielles et urbaines ont été considérées comme deux ...

Lire l'article
03.06.2026

La confiance zéro nécessite des connaissances en processus, pas seulement des outils

Benedikt Langer

8 Min. temps de lecture Zero Trust s’affiche sur toutes les slides de sécurité, mais sa mise en ...

Lire l'article
02.06.2026

Digitalisation sans Big-Bang : Transformation par étapes

Eva Mickler

8 min. de lecture La grande transformation numérique suit un schéma prévisible : un programme pluriannuel, ...

Lire l'article
01.06.2026

Apprentissage en cours : ce que le conseil de surveillance doit exiger lorsque 89 % de la stratégie

Benedikt Langer

6 min. de lecture 89 pour cent des entreprises, selon leurs propres dires, pilotent leur stratégie IA ...

Lire l'article
Un magazine de Evernine Media GmbH