Services de sécurité managés : le RSSI n’est pas seul responsable
Benedikt Langer
8 Min. de lecture Dans de nombreuses entreprises, le CISO est perçu comme le responsable de la sécurité. ...
7 min de lecture
La génération Blackwell de NVIDIA est le produit d’infrastructure IA dominant en 2026. Dans le même temps, les B200 et GB200 restent épuisés jusqu’au milieu de l’année, les délais de livraison s’étalant de huit à vingt semaines. Pour les DSI, la question n’est donc pas de savoir si NVIDIA est incontournable, mais quelle part de stratégie doit être intégrée à la pile IA avant que la facture n’arrive et que les alternatives comme l’AMD MI350X ne deviennent sérieuses à considérer.
L’essentiel en bref
Sur le même sujetNIS2 devient opérationnel : Trois décisions pour les instances dirigeantes / Edge Computing : Les arbitrages du DSI dans l’architecture d’usine
Les chiffres sont clairs : le B200 a un prix public de 35 000 à 40 000 dollars US par GPU, un système DGX B200 avec huit GPU se situe entre 350 000 et 400 000 dollars US. Le B300, présent sur le marché du Cloud depuis janvier 2026, est disponible immédiatement en instance Spot, tandis que les commandes on-premise ont un délai de livraison de douze à vingt semaines. Celui qui planifie une usine d’IA au printemps 2026 se construit contre un pipeline que NVIDIA contrôle, et non contre un marché avec plusieurs alternatives réalistes dans le haut de gamme.
Cela ressemble d’abord à un problème de capacité, mais c’est surtout un problème de stratégie. Celui qui attend six mois pour du matériel ne peut pas prendre deux autres décisions pendant ce temps : quels modèles doivent tourner sur quelle infrastructure. Parallèlement, la question de savoir si son cas d’usage a réellement besoin de la classe frontière. La plupart des DSI, pris dans le cycle d’approvisionnement en 2025, ont constaté pendant l’attente qu’une partie des charges de travail prévues pourrait aussi tourner sur des GPU plus petits ou plus anciens. La pénurie a donc un effet d’apprentissage, stratégiquement précieux, tant que la file d’attente ne reste pas la seule réponse.
La série MI350X d’AMD est, en 2026, pour la première fois un candidat sérieux pour une infrastructure IA productive. Une MI350X coûte environ 25 000 dollars US, un nœud à huit GPU de Dell, HPE ou Supermicro se situe entre 200 000 et 280 000 dollars US. La consommation électrique est de 750 watts TDP par GPU, un nœud à huit GPU avoisinant les huit kilowatts, ce qui couvre à la fois les centres de données refroidis par air et par liquide. Ses performances suffisent pour de nombreuses charges de travail d’inférence et une grande partie des tâches de RAG et de fine-tuning. Pour l’entraînement des modèles de pointe, l’écosystème logiciel de NVIDIA avec CUDA reste l’option par défaut.
Intel a réduit la voilure sur la ligne Gaudi et a signalé son retrait des accélérateurs IA dédiés, la prochaine génération d’Intel étant prévue pour 2026-2027. Pour les DSI, cela signifie qu’Intel n’est plus une option centrale sur le marché des GPU IA en 2026. AWS a construit en interne une alternative avec Trainium2, qui deviendra intéressante pour les clients déjà sur AWS et prêts à optimiser leurs modèles via les chemins de compilation Trainium. Microsoft et Google proposent des capacités Blackwell et TPU dans leurs clouds, avec différents modèles contractuels et systèmes de pré-réservation.
L’option cloud est, en 2026, la voie réaliste pour de nombreuses entreprises, car elle élimine le risque de délai d’attente lié aux commandes de matériel propriétaire. Ceux qui étaient jusqu’ici enfermés dans une logique on-premise trouveront chez NVIDIA DGX Cloud, AWS Bedrock et Azure Machine Learning des capacités scalables, réservables sans délai. Le prix par heure-GPU est plus élevé qu’en opération propre, mais le calcul n’est rentable qu’à partir d’une utilisation constante, que de nombreuses charges de travail IA en entreprise n’atteignent pas.
Un facteur souvent négligé est le côté logiciel. L’écosystème CUDA de NVIDIA est devenu un standard de facto au cours des dix dernières années. PyTorch, TensorFlow, Triton Inference Server, NeMo et toute la suite NVIDIA AI Enterprise offrent un package cohérent qu’AMD doit encore rattraper avec ROCm. En 2026, ROCm est suffisamment mature pour l’inférence et le fine-tuning, mais pour l’entraînement de modèles de pointe avec des équipes de data science internes, CUDA reste le choix le plus productif. Ceux qui réduisent la décision aux seuls prix matériel sous-estiment l’influence de la chaîne d’outils sur la productivité des équipes.
Pour AWS Trainium2, c’est similaire : le matériel est économiquement attractif, mais son intégration aux frameworks de modèles courants est plus étroitement alignée sur les outils natifs AWS. Pour les entreprises qui ont déjà Inferentia et Trainium dans leurs pipelines, l’évolution est naturelle. Pour les nouveaux projets avec un stack hétérogène, la courbe d’apprentissage semble plus raide qu’avec NVIDIA ou AMD. Le TPU-v5 de Google est construit sur le même modèle : excellente performance dans les environnements Google Cloud, moins de flexibilité pour les setups hybrides.
Pour les directeurs de l’information qui organisent leur stack IA au cours de l’année en cours, trois points de décision se dessinent clairement et ne peuvent plus être reportés.
Ce qui pèse contre NVIDIA sur site
Ce qui plaide en faveur de NVIDIA sur site
La première décision concerne la stratégie d’infrastructure : sur site, en cloud ou hybride. Pour la majorité des entreprises, il s’agira d’une combinaison, mais le poids relatif de chaque option déterminera les budgets et la planification du personnel. Ceux qui ont jusqu’à présent opté exclusivement pour le cloud devront se demander si une partie des charges de travail stables ne devrait pas être transférée sur du matériel propre. Quant à ceux qui avaient prévu un déploiement exclusif sur site, ils devront accepter qu’une partie des expériences tourne plus rapidement dans le cloud.
La deuxième décision porte sur le choix des fournisseurs. Une stratégie purement NVIDIA est rarement la meilleure option en 2026, tant du point de vue budgétaire que logistique. En pratique, une combinaison de NVIDIA pour l’entraînement et l’inference intensive en CUDA, d’AMD pour l’inference standard et les charges de travail spécialisées, ainsi que d’instances cloud pour la capacité d’urgence, constitue une approche plus robuste. La troisième décision concerne le stack logiciel : quelle couche d’abstraction l’organisation choisit-elle entre le modèle et le matériel ? Des frameworks comme PyTorch et vLLM fonctionnent sur les deux familles de GPU, mais l’intégration dans le monitoring, le scheduling et la facturation des coûts représente l’effort principal.
Un autre point souvent sous-estimé dans le quotidien : la consommation énergétique et les besoins en refroidissement des racks modernes équipés de GPU dépassent ce que beaucoup de centres de données d’entreprise peuvent supporter sans modifications majeures. Un rack B200 avec plusieurs systèmes DGX peut rapidement consommer plus de 100 kilowatts, ce qui exige un refroidissement liquide et une alimentation électrique adaptée. En optant pour l’AMD MI350X, on bénéficie de la possibilité d’un refroidissement par air et d’une consommation réduite, ce qui représente une véritable facilitation pour les centres de données déjà existants. Ces questions ne peuvent pas être résolues uniquement par l’équipe d’approvisionnement ; elles nécessitent une coordination entre l’infrastructure IT, les services techniques et le directeur financier.
La dimension humaine est la quatrième dimension, souvent implicite. Les opérations GPU constituent un domaine très spécifique, et en 2026, le marché est restreint. Les profils seniors ayant une expérience en tuning CUDA, entraînement multi-nœuds et orchestration avec Slurm ou Kubernetes Operators sont difficiles à recruter et donc particulièrement coûteux. Ceux qui adoptent une stratégie sur site devraient prévoir au moins deux à trois postes à temps plein pour l’exploitation, le patching et l’optimisation des performances. Pour beaucoup d’entreprises, cela fait partie du calcul du TCO, qui ne devient clair qu’après l’achat. L’alternative cloud est plus économique à cet égard, car le prestataire intègre une partie des tâches d’exploitation dans son prix. Cela ne signifie pas que le cloud est toujours moins cher ; cela veut dire que la part du personnel doit figurer explicitement dans la décision.
La rédaction des contrats constitue également, en 2026, un domaine sur lequel les directeurs de l’information devraient se pencher sérieusement. Les contrats pluriannuels avec NVIDIA, AMD et les hyperscalers diffèrent nettement en termes de délais de résiliation, de flexibilité en volume et de stabilité des prix. Qui engage sa capacité sur trois ans ne souhaite pas constater, en deuxième année, que son cas d’utilisation a diminué et que les contrats ne permettent aucune adaptation. Les phases pilotes avec des durées plus courtes représentent une entrée pragmatique avant de s’engager sur des périodes plus longues.
Pour la planification trimestrielle de l’agenda des DSI, trois étapes s’avèrent particulièrement pertinentes : elles peuvent être menées en parallèle et n’entravent pas le fonctionnement opérationnel quotidien.
L’erreur que beaucoup de DSI ont commise en 2025, c’est d’avoir limité la discussion uniquement à NVIDIA et d’avoir introduit les alternatives trop tard. Les prix et les conditions ne bougent que lorsque des options concrètes sont sur la table. Qui, jusqu’au T3 2026, ne dispose pas d’une offre solide provenant d’AMD ou d’un prestataire cloud, ne négocie pas : il paie simplement le tarif catalogue. Dans les grandes organisations, cela peut rapidement représenter une différence de six chiffres par trimestre.
Enfin, une observation rarement mentionnée dans les présentations au conseil d’administration, mais qui oriente véritablement la direction : en 2026, la décision relative au stack IA n’est plus seulement une question technique. Elle est liée à la planification des coûts énergétiques, à la stratégie de conformité, à la question du site et à la gestion des ressources humaines. Les DSI qui traitent ce sujet comme une problématique purement informatique se verront poser, lors de la prochaine réunion du conseil d’administration, des questions auxquelles ils ne sauront répondre. En revanche, ceux qui abordent le thème de manière transversale et impliquent très tôt les interlocuteurs concernés – achats, services immobiliers et finance – disposeront, à la fin de l’année, d’une stratégie cohérente plutôt que d’une simple collection de décisions isolées.
Pour de nombreux workloads d’inférence, cela peut tout à fait être pertinent. Les H100 sont actuellement disponibles entre 27 000 et 40 000 dollars américains par GPU et sont nettement moins accessibles à court terme que les B200. Ceux qui prévoient le training de modèles Frontier opteront pour Blackwell, mais pour l’inférence productive, la génération Hopper restera économiquement pertinente en 2026.
Pour la plupart des entreprises, un changement complet n’est pas réaliste en 2026, car le training et les frameworks basés sur CUDA restent largement orientés vers NVIDIA. Un mix est plus réaliste : AMD sera utilisé pour l’inférence, le fine-tuning standard et les workloads spécialisés, tandis que NVIDIA conservera ses capacités pour le training et les tâches sensibles au CUDA.
Comment procéder de manière réaliste à une rénovation de data center pour 12 kW par rack ?
Quel rôle jouent Trainium2 ou TPU dans l’IA d’entreprise ?
Plus de contenu du réseau MBF Media
Predictive Analytics dans l’ERP : clientélisation pour les petites et moyennes entreprises en 2026
Source de l’image de titre : Pexels / Jeremy Waterhouse (px:3665444)