SaaS-Portfolios brauchen eine Exit-Strategie, kein nächstes Tool
Eva Mickler
7 Min. Lesezeit Die einfachen SaaS-Konsolidierungen sind durch. Wer doppelte Tools streichen wollte, ...
7 Min. Lesezeit
NVIDIAs Blackwell-Generation ist 2026 das dominierende AI-Infrastruktur-Produkt. Gleichzeitig sind B200 und GB200 weiter bis Mitte des Jahres ausverkauft, die Lead-Times liegen bei acht bis zwanzig Wochen. Für CIOs stellt sich damit nicht die Frage, ob NVIDIA gesetzt ist, sondern wie viel Strategie in den KI-Stack gehört, bevor die Rechnung kommt und die Alternativen wie AMD MI350X ernst zu nehmen sind.
Das Wichtigste in Kürze
VerwandtNIS2 wird operativ: Drei Entscheidungen für Leitungsgremien / Edge Computing: CIO-Trade-offs in der Werksarchitektur
Die Zahlen sind eindeutig: Der B200 hat einen Straßenpreis von 35.000 bis 40.000 US-Dollar pro GPU, ein DGX B200-System mit acht GPUs liegt zwischen 350.000 und 400.000 US-Dollar. Der B300, seit Januar 2026 im Cloud-Markt, läuft als Spot-Instance sofort, On-Premise-Bestellungen haben zwölf bis zwanzig Wochen Lead-Time. Wer im Frühjahr 2026 eine KI-Factory plant, baut gegen eine Pipeline, die NVIDIA kontrolliert, nicht gegen einen Markt mit mehreren realistischen Alternativen in der Top-Klasse.
Das klingt zunächst wie ein Kapazitätsproblem, ist aber vor allem ein Strategieproblem. Wer sechs Monate auf Hardware wartet, kann in der Zeit zwei andere Entscheidungen nicht treffen: Welche Modelle auf welcher Infrastruktur laufen sollen. Parallel die Frage, ob der eigene Use Case überhaupt die Frontier-Klasse braucht. Die meisten CIOs, die 2025 in den Lieferzyklus geraten sind, haben in der Wartezeit festgestellt, dass ein Teil der geplanten Workloads auch auf kleineren oder älteren GPUs laufen würde. Der Engpass hat damit einen Lerneffekt, der strategisch wertvoll ist, solange die Warteschleife nicht die einzige Antwort bleibt.
Die MI350X-Serie von AMD ist 2026 zum ersten Mal ein ernstzunehmender Kandidat für produktive KI-Infrastruktur. Eine MI350X liegt bei rund 25.000 US-Dollar, ein Acht-GPU-Node von Dell, HPE oder Supermicro zwischen 200.000 und 280.000 US-Dollar. Der Stromverbrauch liegt bei 750 Watt TDP je GPU, ein Acht-GPU-Node bei ungefähr acht Kilowatt, was sowohl luft- als auch flüssigkeitsgekühlte Rechenzentren abdeckt. Die Leistung reicht für viele Inference-Workloads und große Teile der RAG- und Fine-Tuning-Jobs. Für Training von Frontier-Modellen bleibt NVIDIAs Software-Ökosystem mit CUDA weiter der Default.
Intel hat die Gaudi-Linie zurückgefahren und den Exit aus dedizierten AI-Beschleunigern signalisiert, die nächste Intel-Generation soll 2026 bis 2027 kommen. Für CIOs heißt das: Intel ist im AI-GPU-Markt 2026 keine tragende Option mehr. AWS hat mit Trainium2 intern eine Alternative gebaut, die für Kunden interessant wird, die ohnehin auf AWS sind und bereit sind, ihre Modelle auf Trainium-Compiler-Pfaden zu optimieren. Microsoft und Google bieten Blackwell- und TPU-Kapazitäten in ihren Clouds an, mit unterschiedlichen Vertragsmodellen und Vorreservierungen.
Die Cloud-Option ist für viele Unternehmen 2026 der realistische Weg, weil sie das Lead-Time-Risiko von eigenen Hardware-Bestellungen nimmt. Wer bisher im On-Premise-Denken gefangen war, findet bei NVIDIA DGX Cloud, AWS Bedrock und Azure Machine Learning skalierbare Kapazitäten, die ohne Wartezeit buchbar sind. Der Preis pro GPU-Stunde ist höher als bei eigenem Betrieb, aber die Rechnung stimmt erst ab einer konstanten Auslastung, die viele Unternehmens-KI-Workloads gar nicht erreichen.
Ein häufig übersehener Faktor ist die Softwareseite. NVIDIAs CUDA-Ökosystem ist in den letzten zehn Jahren zu einem De-facto-Standard geworden. PyTorch, TensorFlow, Triton Inference Server, NeMo und die gesamte NVIDIA AI Enterprise Suite liefern ein durchgängiges Paket, das AMD mit ROCm noch aufholen muss. 2026 ist ROCm für Inference und Fine-Tuning ausgereift genug, für Training von Frontier-Modellen mit eigenen Data-Science-Teams bleibt CUDA aber die produktivere Wahl. Wer die Entscheidung rein auf Hardware-Preise reduziert, unterschätzt den Einfluss der Toolchain auf die Team-Produktivität.
Bei AWS Trainium2 gilt Ähnliches: Die Hardware ist wirtschaftlich attraktiv, die Integration in gängige Modell-Frameworks ist aber enger auf AWS-native Tools ausgerichtet. Für Unternehmen, die Inferentia und Trainium bereits in Pipelines haben, ist die Weiterentwicklung naheliegend. Für neue Aufsetzer mit heterogenem Stack fühlt sich die Lernkurve steiler an als bei NVIDIA oder AMD. Googles TPU-v5 ist im gleichen Muster gebaut: Hervorragende Performance in Google-Cloud-Umgebungen, weniger flexibel für Hybrid-Setups.
Für CIOs, die im laufenden Jahr ihren KI-Stack sortieren, kristallisieren sich drei Entscheidungspunkte heraus, die sich nicht weiter aufschieben lassen.
Was gegen On-Premise-NVIDIA spricht
Was für On-Premise-NVIDIA spricht
Die erste Entscheidung ist die Infrastruktur-Route: On-Premise, Cloud oder Hybrid. Für die Mehrheit der Unternehmen wird es eine Mischung sein, aber die Gewichtung entscheidet über Budgets und Personalplanung. Wer bisher rein Cloud gefahren ist, wird sich fragen müssen, ob ein Teil der stabilen Workloads auf eigene Hardware gehört. Wer rein On-Premise geplant hatte, muss akzeptieren, dass ein Teil der Experimente in der Cloud schneller läuft.
Die zweite Entscheidung betrifft den Vendor-Mix. Reine NVIDIA-Strategie ist 2026 aus Budget- und Lieferperspektive selten die beste Wahl. Eine Kombination aus NVIDIA für Training und CUDA-intensive Inference, AMD für Standard-Inference und spezialisierte Workloads und Cloud-Instanzen für Burst-Kapazität ist in der Praxis der robustere Aufbau. Die dritte Entscheidung fällt im Software-Stack: Welche Abstraktionsebene setzt die eigene Organisation zwischen Modell und Hardware? Frameworks wie PyTorch und vLLM funktionieren auf beiden GPU-Familien, aber die Integration in Monitoring, Scheduling und Kostenverrechnung ist der eigentliche Aufwand.
Ein weiterer Punkt, der im Alltag oft unterschätzt wird: Der Energiebedarf und die Kühlungsanforderungen moderner GPU-Racks übersteigen das, was viele Unternehmens-Rechenzentren ohne Umbau leisten können. Ein B200-Rack mit mehreren DGX-Systemen zieht schnell über 100 Kilowatt, was Flüssigkeitskühlung und angepasste Stromversorgung verlangt. Wer AMD MI350X wählt, bekommt die Option auf Luftkühlung und geringere Leistungsaufnahme, was für bestehende Rechenzentren eine echte Erleichterung ist. Diese Fragen klärt kein Beschaffungs-Team allein, sie gehören in die Abstimmung zwischen IT-Infrastruktur, Facilities und CFO.
Die Personalseite ist die vierte, oft unausgesprochene Dimension. GPU-Ops als Fachgebiet ist 2026 ein enger Markt. Senior-Profile mit Erfahrung in CUDA-Tuning, Multi-Node-Training und Orchestrierung mit Slurm oder Kubernetes-Operators sind schwer zu besetzen und entsprechend teuer. Wer eine eigene On-Premise-Strategie fährt, sollte mindestens zwei bis drei Vollzeitstellen für Betrieb, Patching und Performance-Tuning einplanen. Für viele Unternehmen ist das ein Teil der TCO-Rechnung, der erst nach dem Kauf klar wird. Die Cloud-Alternative ist in dem Punkt sparsamer, weil der Betreiber einen Teil der Ops-Arbeit im Preis abbildet. Das heißt nicht, dass Cloud immer günstiger ist. Es heißt, dass der Personalanteil in der Entscheidung eine explizite Position bekommen muss.
Auch die Vertragsgestaltung ist 2026 ein Feld, auf dem sich CIOs vertiefen sollten. Mehrjahresverträge mit NVIDIA, AMD und Hyperscalern unterscheiden sich in Kündigungsfristen, Volumen-Flexibilität und Preisgleiten deutlich. Wer Kapazität über drei Jahre bindet, will nicht in Jahr zwei merken, dass der eigene Use Case geschrumpft ist und die Verträge keine Anpassung zulassen. Pilot-Phasen mit kürzeren Laufzeiten sind der pragmatische Einstieg, bevor größere Commitments geschlossen werden.
Für die Quartalsplanung der CIO-Agenda lohnen sich drei Schritte, die parallel laufen können und das operative Tagesgeschäft nicht blockieren.
Der Fehler, den viele CIOs 2025 gemacht haben, war, die Diskussion mit NVIDIA allein zu führen und zu spät Alternativen ins Spiel zu bringen. Die Preise und Konditionen bewegen sich nur, wenn echte Optionen auf dem Tisch liegen. Wer bis Q3 2026 keine belastbare Zahl von AMD oder einem Cloud-Anbieter hat, verhandelt nicht, sondern zahlt den Listenpreis. Das ist in großen Organisationen schnell ein sechsstelliger Betrag Unterschied pro Quartal.
Zum Schluss eine Beobachtung, die in den Vorstandsvorlagen selten steht, aber die Richtung prägt: Die KI-Stack-Entscheidung ist 2026 keine rein technische Frage mehr. Sie hat Verbindungen zur Energiekosten-Planung, zur Compliance-Strategie, zum Standort-Thema und zur Personalfrage. CIOs, die das als isoliertes IT-Thema behandeln, bekommen in der nächsten Aufsichtsrunde Fragen, für die sie keine Antwort haben. Wer das Thema breit aufsetzt und die relevanten Gesprächspartner in Einkauf, Facilities und Finance früh einbindet, hat am Jahresende eine Strategie, keine Sammlung von Einzelentscheidungen.
Für viele Inference-Workloads durchaus. Die H100 liegt aktuell bei 27.000 bis 40.000 US-Dollar pro GPU und ist deutlich kürzerfristig verfügbar als B200. Wer Training von Frontier-Modellen plant, wird auf Blackwell gehen, aber für produktive Inference bleibt die Hopper-Generation 2026 wirtschaftlich relevant.
Ein vollständiger Wechsel ist 2026 für die wenigsten Unternehmen realistisch, weil Training und CUDA-basierte Frameworks weiter auf NVIDIA ausgelegt sind. Realistisch ist ein Mix, in dem AMD für Inference, Standard-Fine-Tuning und spezialisierte Workloads eingesetzt wird und NVIDIA für Training und CUDA-sensitive Jobs erhalten bleibt.
Microsoft Azure und AWS bieten europäische Regionen mit entsprechender Dokumentation zu Datenresidenz und Subverarbeitung. NVIDIA DGX Cloud läuft ebenfalls in europäischen Regionen, mit eigenen Vertragsmodellen. Für stärkere Souveränitätsanforderungen kommen IONOS, STACKIT und OVHcloud ins Spiel, die allerdings nicht die Top-Version von Blackwell hosten.
Der Umbau dauert in der Regel sechs bis zwölf Monate und umfasst Stromversorgung, Kühlung und Racks. Viele Unternehmen wählen Colocation als Zwischenlösung, weil moderne Betreiber die Infrastruktur bereits mitbringen. Die Kapitalkosten für den eigenen Umbau sind häufig nur bei langfristiger hoher GPU-Auslastung gerechtfertigt.
Beide sind relevant, wenn die Organisation bereits stark in AWS oder Google Cloud investiert ist. Trainium2 und TPU-v5 liefern für ihre jeweiligen Stacks gute Preis-Leistung, verlangen aber Optimierungsarbeit an den Modellen. Für Unternehmen ohne enge Hyperscaler-Bindung bleibt die NVIDIA- oder AMD-Route die pragmatischere Wahl.
Quelle Titelbild: Pexels / Jeremy Waterhouse (px:3665444)
Sie müssen den Inhalt von reCAPTCHA laden, um das Formular abzuschicken. Bitte beachten Sie, dass dabei Daten mit Drittanbietern ausgetauscht werden.
Mehr InformationenSie sehen gerade einen Platzhalterinhalt von Turnstile. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr InformationenSie sehen gerade einen Platzhalterinhalt von Facebook. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr InformationenSie sehen gerade einen Platzhalterinhalt von Instagram. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr InformationenSie sehen gerade einen Platzhalterinhalt von X. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr Informationen