21.04.2026

7 Min. Lesezeit

NVIDIAs Blackwell-Generation ist 2026 das dominierende AI-Infrastruktur-Produkt. Gleichzeitig sind B200 und GB200 weiter bis Mitte des Jahres ausverkauft, die Lead-Times liegen bei acht bis zwanzig Wochen. Für CIOs stellt sich damit nicht die Frage, ob NVIDIA gesetzt ist, sondern wie viel Strategie in den KI-Stack gehört, bevor die Rechnung kommt und die Alternativen wie AMD MI350X ernst zu nehmen sind.

Das Wichtigste in Kürze

  • Lieferengpass bleibt. B200 und GB200 sind bis Mitte 2026 ausverkauft, Backlog 3,6 Millionen Einheiten. Wer heute ordert, plant mit acht bis zwanzig Wochen Lead-Time.
  • Alternativen funktionieren. AMD MI350X liegt bei 25.000 US-Dollar pro GPU und 25 bis 30 Prozent günstiger als NVIDIA. Für viele Inference-Workloads reicht die Leistung, die Verfügbarkeit ist sofort.
  • Cloud-Inference ist die dritte Spur. DGX Cloud, AWS mit Trainium2 und Azure mit Blackwell-Kapazitäten entkoppeln die Einkaufsentscheidung vom Lead-Time-Risiko. Das verändert den Case für On-Premise-GPUs.

VerwandtNIS2 wird operativ: Drei Entscheidungen für Leitungsgremien  /  Edge Computing: CIO-Trade-offs in der Werksarchitektur

Was NVIDIAs Dominanz für CIOs konkret bedeutet

Die Zahlen sind eindeutig: Der B200 hat einen Straßenpreis von 35.000 bis 40.000 US-Dollar pro GPU, ein DGX B200-System mit acht GPUs liegt zwischen 350.000 und 400.000 US-Dollar. Der B300, seit Januar 2026 im Cloud-Markt, läuft als Spot-Instance sofort, On-Premise-Bestellungen haben zwölf bis zwanzig Wochen Lead-Time. Wer im Frühjahr 2026 eine KI-Factory plant, baut gegen eine Pipeline, die NVIDIA kontrolliert, nicht gegen einen Markt mit mehreren realistischen Alternativen in der Top-Klasse.

Das klingt zunächst wie ein Kapazitätsproblem, ist aber vor allem ein Strategieproblem. Wer sechs Monate auf Hardware wartet, kann in der Zeit zwei andere Entscheidungen nicht treffen: Welche Modelle auf welcher Infrastruktur laufen sollen. Parallel die Frage, ob der eigene Use Case überhaupt die Frontier-Klasse braucht. Die meisten CIOs, die 2025 in den Lieferzyklus geraten sind, haben in der Wartezeit festgestellt, dass ein Teil der geplanten Workloads auch auf kleineren oder älteren GPUs laufen würde. Der Engpass hat damit einen Lerneffekt, der strategisch wertvoll ist, solange die Warteschleife nicht die einzige Antwort bleibt.

3,6 Mio.
NVIDIA-Blackwell-Backlog per Ende 2025. B200 und GB200 bleiben bis Mitte 2026 ausverkauft. Unternehmen, die sofort Kapazität brauchen, weichen auf Cloud-Instanzen oder AMD-Alternativen aus.
Quelle: Financial Content Blackwell-Marktbericht, Dezember 2025.

Wo AMD, AWS und die Cloud-Optionen realistisch sind

Die MI350X-Serie von AMD ist 2026 zum ersten Mal ein ernstzunehmender Kandidat für produktive KI-Infrastruktur. Eine MI350X liegt bei rund 25.000 US-Dollar, ein Acht-GPU-Node von Dell, HPE oder Supermicro zwischen 200.000 und 280.000 US-Dollar. Der Stromverbrauch liegt bei 750 Watt TDP je GPU, ein Acht-GPU-Node bei ungefähr acht Kilowatt, was sowohl luft- als auch flüssigkeitsgekühlte Rechenzentren abdeckt. Die Leistung reicht für viele Inference-Workloads und große Teile der RAG- und Fine-Tuning-Jobs. Für Training von Frontier-Modellen bleibt NVIDIAs Software-Ökosystem mit CUDA weiter der Default.

Intel hat die Gaudi-Linie zurückgefahren und den Exit aus dedizierten AI-Beschleunigern signalisiert, die nächste Intel-Generation soll 2026 bis 2027 kommen. Für CIOs heißt das: Intel ist im AI-GPU-Markt 2026 keine tragende Option mehr. AWS hat mit Trainium2 intern eine Alternative gebaut, die für Kunden interessant wird, die ohnehin auf AWS sind und bereit sind, ihre Modelle auf Trainium-Compiler-Pfaden zu optimieren. Microsoft und Google bieten Blackwell- und TPU-Kapazitäten in ihren Clouds an, mit unterschiedlichen Vertragsmodellen und Vorreservierungen.

Die Cloud-Option ist für viele Unternehmen 2026 der realistische Weg, weil sie das Lead-Time-Risiko von eigenen Hardware-Bestellungen nimmt. Wer bisher im On-Premise-Denken gefangen war, findet bei NVIDIA DGX Cloud, AWS Bedrock und Azure Machine Learning skalierbare Kapazitäten, die ohne Wartezeit buchbar sind. Der Preis pro GPU-Stunde ist höher als bei eigenem Betrieb, aber die Rechnung stimmt erst ab einer konstanten Auslastung, die viele Unternehmens-KI-Workloads gar nicht erreichen.

Ein häufig übersehener Faktor ist die Softwareseite. NVIDIAs CUDA-Ökosystem ist in den letzten zehn Jahren zu einem De-facto-Standard geworden. PyTorch, TensorFlow, Triton Inference Server, NeMo und die gesamte NVIDIA AI Enterprise Suite liefern ein durchgängiges Paket, das AMD mit ROCm noch aufholen muss. 2026 ist ROCm für Inference und Fine-Tuning ausgereift genug, für Training von Frontier-Modellen mit eigenen Data-Science-Teams bleibt CUDA aber die produktivere Wahl. Wer die Entscheidung rein auf Hardware-Preise reduziert, unterschätzt den Einfluss der Toolchain auf die Team-Produktivität.

Bei AWS Trainium2 gilt Ähnliches: Die Hardware ist wirtschaftlich attraktiv, die Integration in gängige Modell-Frameworks ist aber enger auf AWS-native Tools ausgerichtet. Für Unternehmen, die Inferentia und Trainium bereits in Pipelines haben, ist die Weiterentwicklung naheliegend. Für neue Aufsetzer mit heterogenem Stack fühlt sich die Lernkurve steiler an als bei NVIDIA oder AMD. Googles TPU-v5 ist im gleichen Muster gebaut: Hervorragende Performance in Google-Cloud-Umgebungen, weniger flexibel für Hybrid-Setups.

Drei Entscheidungen, die 2026 anstehen

Für CIOs, die im laufenden Jahr ihren KI-Stack sortieren, kristallisieren sich drei Entscheidungspunkte heraus, die sich nicht weiter aufschieben lassen.

Was gegen On-Premise-NVIDIA spricht

  • Sechs bis neun Monate Lead-Time lähmen die Projektplanung
  • Auslastung unter 60 Prozent macht Cloud-Betrieb wirtschaftlicher
  • Eigene Rechenzentren oft nicht auf 12 kW/Rack ausgelegt
  • Personalaufbau für GPU-Ops nicht trivial und teuer

Was für On-Premise-NVIDIA spricht

  • Datensouveränität und Compliance-Anforderungen zwingen zur eigenen Infrastruktur
  • Stabile, hohe Auslastung rechtfertigt die Kapitalinvestition
  • Training eigener Frontier-Modelle erfordert CUDA-Optimierung
  • Bestehendes GPU-Personal und Tooling-Investitionen erhalten

Die erste Entscheidung ist die Infrastruktur-Route: On-Premise, Cloud oder Hybrid. Für die Mehrheit der Unternehmen wird es eine Mischung sein, aber die Gewichtung entscheidet über Budgets und Personalplanung. Wer bisher rein Cloud gefahren ist, wird sich fragen müssen, ob ein Teil der stabilen Workloads auf eigene Hardware gehört. Wer rein On-Premise geplant hatte, muss akzeptieren, dass ein Teil der Experimente in der Cloud schneller läuft.

Die zweite Entscheidung betrifft den Vendor-Mix. Reine NVIDIA-Strategie ist 2026 aus Budget- und Lieferperspektive selten die beste Wahl. Eine Kombination aus NVIDIA für Training und CUDA-intensive Inference, AMD für Standard-Inference und spezialisierte Workloads und Cloud-Instanzen für Burst-Kapazität ist in der Praxis der robustere Aufbau. Die dritte Entscheidung fällt im Software-Stack: Welche Abstraktionsebene setzt die eigene Organisation zwischen Modell und Hardware? Frameworks wie PyTorch und vLLM funktionieren auf beiden GPU-Familien, aber die Integration in Monitoring, Scheduling und Kostenverrechnung ist der eigentliche Aufwand.

Ein weiterer Punkt, der im Alltag oft unterschätzt wird: Der Energiebedarf und die Kühlungsanforderungen moderner GPU-Racks übersteigen das, was viele Unternehmens-Rechenzentren ohne Umbau leisten können. Ein B200-Rack mit mehreren DGX-Systemen zieht schnell über 100 Kilowatt, was Flüssigkeitskühlung und angepasste Stromversorgung verlangt. Wer AMD MI350X wählt, bekommt die Option auf Luftkühlung und geringere Leistungsaufnahme, was für bestehende Rechenzentren eine echte Erleichterung ist. Diese Fragen klärt kein Beschaffungs-Team allein, sie gehören in die Abstimmung zwischen IT-Infrastruktur, Facilities und CFO.

Die Personalseite ist die vierte, oft unausgesprochene Dimension. GPU-Ops als Fachgebiet ist 2026 ein enger Markt. Senior-Profile mit Erfahrung in CUDA-Tuning, Multi-Node-Training und Orchestrierung mit Slurm oder Kubernetes-Operators sind schwer zu besetzen und entsprechend teuer. Wer eine eigene On-Premise-Strategie fährt, sollte mindestens zwei bis drei Vollzeitstellen für Betrieb, Patching und Performance-Tuning einplanen. Für viele Unternehmen ist das ein Teil der TCO-Rechnung, der erst nach dem Kauf klar wird. Die Cloud-Alternative ist in dem Punkt sparsamer, weil der Betreiber einen Teil der Ops-Arbeit im Preis abbildet. Das heißt nicht, dass Cloud immer günstiger ist. Es heißt, dass der Personalanteil in der Entscheidung eine explizite Position bekommen muss.

Auch die Vertragsgestaltung ist 2026 ein Feld, auf dem sich CIOs vertiefen sollten. Mehrjahresverträge mit NVIDIA, AMD und Hyperscalern unterscheiden sich in Kündigungsfristen, Volumen-Flexibilität und Preisgleiten deutlich. Wer Kapazität über drei Jahre bindet, will nicht in Jahr zwei merken, dass der eigene Use Case geschrumpft ist und die Verträge keine Anpassung zulassen. Pilot-Phasen mit kürzeren Laufzeiten sind der pragmatische Einstieg, bevor größere Commitments geschlossen werden.

Was CIOs jetzt in die Quartalsplanung aufnehmen

Für die Quartalsplanung der CIO-Agenda lohnen sich drei Schritte, die parallel laufen können und das operative Tagesgeschäft nicht blockieren.

CIO-Quartalsfahrplan KI-Stack 2026
Q2 2026
Workload-Inventur: Welche KI-Jobs laufen aktuell wo, mit welcher GPU-Auslastung, welchen Kosten pro Monat. Ergebnis: Liste der Jobs mit klarer Auslastungscharakteristik.
Q2 2026
Vendor-Sondierung: Parallel zu NVIDIA mit AMD, AWS und Azure konkrete Angebote einholen. Nicht als Drohkulisse, sondern um reale Preise und Lieferzeiten im Haus zu haben.
Q3 2026
Pilot Alternativen: Zwei Workloads auf AMD MI350X oder Cloud-Alternativen verproben, Qualität und Kosten im direkten Vergleich messen. Ergebnisse als Teil der Budgetplanung für 2027.
Q3 2026
Energie- und Facility-Check: Rechenzentrums-Readiness für 12-plus kW pro Rack prüfen, gegebenenfalls Umbau- oder Colocation-Optionen evaluieren.
Q4 2026
Strategie-Update: Ergebnisse aus Piloten, Vendor-Angeboten und Kostenvergleichen in ein Stack-Papier gießen, das Geschäftsleitung und Aufsicht die Entscheidungsgrundlage liefert.

Der Fehler, den viele CIOs 2025 gemacht haben, war, die Diskussion mit NVIDIA allein zu führen und zu spät Alternativen ins Spiel zu bringen. Die Preise und Konditionen bewegen sich nur, wenn echte Optionen auf dem Tisch liegen. Wer bis Q3 2026 keine belastbare Zahl von AMD oder einem Cloud-Anbieter hat, verhandelt nicht, sondern zahlt den Listenpreis. Das ist in großen Organisationen schnell ein sechsstelliger Betrag Unterschied pro Quartal.

Zum Schluss eine Beobachtung, die in den Vorstandsvorlagen selten steht, aber die Richtung prägt: Die KI-Stack-Entscheidung ist 2026 keine rein technische Frage mehr. Sie hat Verbindungen zur Energiekosten-Planung, zur Compliance-Strategie, zum Standort-Thema und zur Personalfrage. CIOs, die das als isoliertes IT-Thema behandeln, bekommen in der nächsten Aufsichtsrunde Fragen, für die sie keine Antwort haben. Wer das Thema breit aufsetzt und die relevanten Gesprächspartner in Einkauf, Facilities und Finance früh einbindet, hat am Jahresende eine Strategie, keine Sammlung von Einzelentscheidungen.

Häufige Fragen

Lohnt sich der Kauf von NVIDIA H100 oder H200 Systemen 2026 noch?

Für viele Inference-Workloads durchaus. Die H100 liegt aktuell bei 27.000 bis 40.000 US-Dollar pro GPU und ist deutlich kürzerfristig verfügbar als B200. Wer Training von Frontier-Modellen plant, wird auf Blackwell gehen, aber für produktive Inference bleibt die Hopper-Generation 2026 wirtschaftlich relevant.

Wie realistisch ist ein vollständiger Wechsel von NVIDIA zu AMD?

Ein vollständiger Wechsel ist 2026 für die wenigsten Unternehmen realistisch, weil Training und CUDA-basierte Frameworks weiter auf NVIDIA ausgelegt sind. Realistisch ist ein Mix, in dem AMD für Inference, Standard-Fine-Tuning und spezialisierte Workloads eingesetzt wird und NVIDIA für Training und CUDA-sensitive Jobs erhalten bleibt.

Welche Cloud-Option ist für europäische Unternehmen mit Datenschutzanforderungen geeignet?

Microsoft Azure und AWS bieten europäische Regionen mit entsprechender Dokumentation zu Datenresidenz und Subverarbeitung. NVIDIA DGX Cloud läuft ebenfalls in europäischen Regionen, mit eigenen Vertragsmodellen. Für stärkere Souveränitätsanforderungen kommen IONOS, STACKIT und OVHcloud ins Spiel, die allerdings nicht die Top-Version von Blackwell hosten.

Wie plant man einen Rechenzentrums-Umbau für 12 kW pro Rack realistisch?

Der Umbau dauert in der Regel sechs bis zwölf Monate und umfasst Stromversorgung, Kühlung und Racks. Viele Unternehmen wählen Colocation als Zwischenlösung, weil moderne Betreiber die Infrastruktur bereits mitbringen. Die Kapitalkosten für den eigenen Umbau sind häufig nur bei langfristiger hoher GPU-Auslastung gerechtfertigt.

Welche Rolle spielt Trainium2 oder TPU für Unternehmens-KI?

Beide sind relevant, wenn die Organisation bereits stark in AWS oder Google Cloud investiert ist. Trainium2 und TPU-v5 liefern für ihre jeweiligen Stacks gute Preis-Leistung, verlangen aber Optimierungsarbeit an den Modellen. Für Unternehmen ohne enge Hyperscaler-Bindung bleibt die NVIDIA- oder AMD-Route die pragmatischere Wahl.

Mehr aus dem MBF Media Netzwerk

Quelle Titelbild: Pexels / Jeremy Waterhouse (px:3665444)

Diesen Beitrag teilen:
Auch verfuegbar inEnglisch  ·  Franzoesisch  ·  Spanisch

Auch verfügbar in

Weitere Beiträge

18.05.2026

SaaS-Portfolios brauchen eine Exit-Strategie, kein nächstes Tool

Eva Mickler

7 Min. Lesezeit Die einfachen SaaS-Konsolidierungen sind durch. Wer doppelte Tools streichen wollte, ...

Zum Beitrag
17.05.2026

Souveränität schlägt Preis: das neue Vergabe-Signal

Angelika Beierlein

8 Min. Lesezeit Der Bund will seine zentrale Verwaltungscloud von SAP und der Deutschen Telekom bauen ...

Zum Beitrag
16.05.2026

Welches IT-Budget die Kürzungsrunde überlebt

Angelika Beierlein

7 Min. Lesezeit Die Budget-Runde für 2027 läuft. Das IT-Budget wird darin wieder als Kostenposition ...

Zum Beitrag
15.05.2026

Wer im Konzern definiert, was die KI für wahr hält

Eva Mickler

7 Min. Lesezeit Microsoft lässt Administratoren seit April bestimmte SharePoint-Sites als autoritative ...

Zum Beitrag
15.05.2026

Agent 365 ordnet die KI-Agenten, die Haftung bleibt offen

Angelika Beierlein

7 Min. Lesezeit Microsoft hat mit Agent 365 seit dem 1. Mai eine Kontrollebene für KI-Agenten im Markt. ...

Zum Beitrag
14.05.2026

Post-Quantum-Kryptographie: Der Countdown für die Konzern-IT läuft

Bernhard Liebl

7 Min. Lesezeit · Strategie-Briefing Die Post-Quantum-Diskussion verlässt 2026 die Forschungsabteilung ...

Zum Beitrag
Ein Magazin der Evernine Media GmbH