Souveränität schlägt Preis: das neue Vergabe-Signal
Angelika Beierlein
8 Min. Lesezeit Der Bund will seine zentrale Verwaltungscloud von SAP und der Deutschen Telekom bauen ...
6 Min. Lesezeit
NVIDIA Vera Rubin (NVL576) ist in Vollproduktion. AWS, Google Cloud und Microsoft Azure deployen bereits die neue Architektur. CIOs die ihre KI-Infrastruktur-Roadmaps für 2026/2027 noch auf Hopper-Basis kalkulieren, planen mit Kostenkurven die die Realität um den Faktor 10 verfehlen – in die falsche Richtung.
Das Wichtigste in Kürze
Was ist NVIDIA Vera Rubin? Vera Rubin (intern NVL576) ist NVIDIAs Nachfolge-Architektur für die Blackwell-Generation. Der Name ehrt die Astronomin Vera Rubin. Der NVL576 kombiniert 576 Vera-Rubin-Tensor-Cores mit NVIDIAs neuer NVLink-Interconnect-Technologie und ist für Inference-Workloads – also den produktiven Betrieb trainierter KI-Modelle – auf 10x bessere Token-per-Watt-Effizienz optimiert als die Vorgängergeneration H100.
Verwandt: cloudmagazin: Kubernetes 1.36 Haru – Infrastruktur-Upgrade-Checkliste
Die relevante Zahl für CIOs ist nicht die GPU-Performance in FLOPS – sondern der Preis pro Million Output-Tokens im produktiven Betrieb. Auf H100 kostet GPT-4-ähnliche Inference je nach Auslastung und Cloud-Provider zwischen 8 und 15 USD pro 1 Million Output-Tokens. Vera Rubin bringt diese Kurve auf etwa 0,8 bis 1,5 USD – ein Faktor 10 günstiger.
Token-Kosten Vergleich (Inference, Cloud, 70B-Modell-Äquivalent)
H100 (Hopper, 2023)
~$10
pro 1M Output-Tokens
B200 (Blackwell, 2025)
~$3
pro 1M Output-Tokens
Vera Rubin (2026)
~$1
pro 1M Output-Tokens
Was das für Business-Cases bedeutet: Ein Unternehmen das heute 50.000 USD monatlich für KI-Inference auf Cloud-H100-Kapazitäten ausgibt, würde auf Vera-Rubin-Basis etwa 5.000 USD zahlen. Eine interne KI-Assistenz-Plattform die auf H100-Basis nicht rentabel erschien, kann auf Vera-Rubin-Basis funktionieren. Make-or-Buy-Entscheidungen für eigene On-Prem-KI-Server verschieben sich deutlich in Richtung Cloud.
Q1/Q2 2026 – Produktion startet
NVIDIA beginnt Volume-Produktion Vera Rubin NVL576. Google Cloud und AWS erhalten erste Dedicated-Allocations für eigene interne Workloads.
Q2 2026 – Enterprise-Preview
AWS, Google Cloud und Azure öffnen Vera-Rubin-Kapazitäten für strategische Enterprise-Kunden in Private-Preview. DACH-Region-Verfügbarkeit Frankfurt und Amsterdam erste Priorität.
Q3 2026 – On-Demand (geplant)
On-Demand-Verfügbarkeit für alle Enterprise-Kunden. Pricing auf Basis aktueller NVIDIA-Produktionskosten – erwartet signifikant unter H100-Spot-Preisen der gleichen Generation.
Cloud-First-Strategie gewinnt
On-Prem riskiert Fehlinvestition
Die pragmatische CIO-Position für 2026: On-Prem-KI-Server-Investitionen auf H100/H200-Basis einfrieren bis Vera-Rubin-On-Prem-Verfügbarkeit klar ist. Cloud-Inference-Kapazitäten für Vera Rubin vorbuchen (Reserved Instances) wenn die eigene Inference-Nutzung planbar ist. Managed-Service-Anbieter die auf Hopper-Basis kalkulieren auf Vera-Rubin-Roadmap ansprechen.
Mehr aus dem MBF Media Netzwerk
Quelle Fakten: NVIDIA GTC 2026, AWS re:Invent Pre-Announcement April 2026, Google Cloud Blog, Microsoft Azure AI Infrastructure Blog.
AWS, Google Cloud und Azure planen On-Demand-Verfügbarkeit für Q3 2026. Frankfurt und Amsterdam als EU-Regionen sind erste Priorität für DACH-Rollout. Private-Preview-Zugang ist für strategische Enterprise-Kunden bereits ab Q2 2026 beantragt werden – über den jeweiligen Account-Manager.
Die 10x-Zahl stammt aus NVIDIA-internen Benchmarks für Inference-Workloads unter optimalen Bedingungen. Reale Produktionszahlen werden niedriger ausfallen – 5-7x Kostenreduktion gegenüber H100 ist eine realistischere Erwartung für produktive Workloads. Selbst bei 5x bleibt das ein strategisch bedeutsamer Unterschied für Infrastruktur-Budgetplanung.
Nicht pauschal. H100-Infrastruktur die heute bestellt wird und Q4 2026 in Produktion geht, hat noch 2-3 Jahre produktiven Einsatz vor Vera-Rubin-Parität im On-Prem-Segment. Training-Workloads sind weniger betroffen als Inference. Die Frage ist: Wofür brauche ich die GPU-Kapazität? Für Inference-Skalierung ist die Vera-Rubin-Pause sinnvoll. Für Training kann H100 noch vertretbar sein.
TCO-Analysen die auf H100-Cloud-Kosten als Baseline aufgebaut wurden unterschätzen die Cloud-Attraktivität ab 2027 systematisch. Wer gerade eine KI-Infrastruktur-Analyse durchführt, sollte Vera-Rubin-Cloud-Preise als Szenario einbeziehen. Eigenständige On-Prem-KI-Investitionen über 5 Millionen EUR Projektvolumen sollten auf diesen Faktor explizit hin analysiert werden.
AMD MI350 und MI400 kommen als Konkurrenz, sind aber noch nicht in Vollproduktion. Google TPU v6 (Trillium) ist bereits in Produktion aber nicht für externe Kunden verfügbar. AWS Trainium 3 und Inferentia 3 sind für Training und Inference spezialisiert, aber nicht GPU-kompatibel für bestehende CUDA-Workloads. Für DACH-Unternehmen ohne eigene Chip-Abhängigkeit ist Vera Rubin via Cloud die pragmatischste Option in 2026.
Quelle Titelbild: Pexels / panumas nikhomkhai (px:17489157)
Sie müssen den Inhalt von reCAPTCHA laden, um das Formular abzuschicken. Bitte beachten Sie, dass dabei Daten mit Drittanbietern ausgetauscht werden.
Mehr InformationenSie sehen gerade einen Platzhalterinhalt von Turnstile. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr InformationenSie sehen gerade einen Platzhalterinhalt von Facebook. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr InformationenSie sehen gerade einen Platzhalterinhalt von Instagram. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr InformationenSie sehen gerade einen Platzhalterinhalt von X. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr Informationen