Servicios de Ciberseguridad Gestionados: El CISO no asume la responsabilidad exclusiva
Benedikt Langer
8 Min. de lectura En muchas empresas, el CISO es considerado la persona responsable de la seguridad. ...
6 Min. de lectura
NVIDIA Vera Rubin (NVL576) está en producción completa. AWS, Google Cloud y Microsoft Azure ya están desplegando la nueva arquitectura. Los CIOs que aún calculan sus roadmap de infraestructura de IA para 2026/2027 sobre la base de Hopper planean con curvas de costos que superan la realidad por un factor de 10, en la dirección equivocada.
Lo más importante en resumen
¿Qué es NVIDIA Vera Rubin? Vera Rubin (internamente NVL576) es la arquitectura de próxima generación de NVIDIA para la familia Blackwell. El nombre homenajea a la astrónoma Vera Rubin. El NVL576 combina 576 núcleos tensoriales Vera Rubin con la nueva tecnología de interconexión NVLink de NVIDIA y está optimizado para cargas de inferencia —es decir, para el funcionamiento productivo de modelos de IA entrenados— con una eficiencia de tokens por watt 10 veces superior a la generación anterior, el H100.
Relacionado: cloudmagazin: Kubernetes 1.36 Haru – Lista de verificación para la actualización de la infraestructura
La cifra relevante para los CIOs no es la performance de la GPU en FLOPS, sino el precio por cada millón de tokens de salida en operación productiva. En H100, la inferencia similar a GPT-4 cuesta, según la carga y el proveedor de nube, entre 8 y 15 USD por cada millón de tokens de salida. Vera Rubin reduce esta curva a aproximadamente 0,8 a 1,5 USD, es decir, un factor 10 más barato.
Comparación de costos de tokens (inferencia, nube, equivalente a modelo de 70B)
H100 (Hopper, 2023)
~$10
por 1M de tokens de salida
B200 (Blackwell, 2025)
~$3
por 1M de tokens de salida
Vera Rubin (2026)
~$1
por 1M de tokens de salida
Qué significa esto para los casos de negocio: Una empresa que hoy gasta 50.000 USD mensuales en inferencia de IA sobre capacidades de H100 en la nube, pagaría alrededor de 5.000 USD con base en Vera Rubin. Una plataforma interna de asistencia de IA que antes no parecía rentable en H100, podría funcionar con Vera Rubin. Las decisiones de hacer o comprar servidores propios de IA on-premise se desplazan claramente hacia la nube.
Q1/Q2 de 2026 – Inicio de producción
NVIDIA inicia la producción en volumen de Vera Rubin NVL576. Google Cloud y AWS reciben las primeras asignaciones dedicadas para sus propias cargas de trabajo internas.
Q2 de 2026 – Previsualización empresarial
AWS, Google Cloud y Azure abren las capacidades de Vera Rubin para clientes estratégicos empresariales en una previsualización privada. La disponibilidad en la región DACH, con Frankfurt y Ámsterdam como prioridad inicial.
Q3 de 2026 – A demanda (previsto)
Disponibilidad bajo demanda para todos los clientes empresariales. Precios basados en los costos actuales de producción de NVIDIA, que se espera sean significativamente inferiores a los precios spot de H100 de la misma generación.
La estrategia Cloud-First gana terreno
On-Prem arriesga una mala inversión
La posición pragmática para los CIO en 2026: congelar las inversiones en servidores de IA On-Prem basados en H100/H200 hasta que esté clara la disponibilidad de Vera Rubin On-Prem. Reservar capacidades de inferencia en la nube para Vera Rubin (Instancias Reservadas) si el uso propio de inferencia es predecible. Abordar a los proveedores de servicios gestionados que calculan sobre la base de Hopper respecto a la hoja de ruta de Vera Rubin.
Más de la red MBF Media
Fuente de hechos: NVIDIA GTC 2026, anuncio previo de AWS re:Invent abril 2026, Blog de Google Cloud, Blog de Microsoft Azure AI Infrastructure.
AWS, Google Cloud y Azure planean disponibilidad bajo demanda para el tercer trimestre de 2026. Frankfurt y Ámsterdam, como regiones de la UE, son la primera prioridad para el despliegue en la región DACH. El acceso anticipado privado ya puede solicitarse para clientes empresariales estratégicos desde el segundo trimestre de 2026, a través del respectivo gestor de cuenta.
La cifra de 10x proviene de benchmarks internos de NVIDIA para cargas de trabajo de inferencia en condiciones óptimas. Los datos reales de producción serán más bajos: una reducción de costes de 5-7 veces frente a H100 es una expectativa más realista para cargas de trabajo productivas. Incluso con un factor de 5x, sigue siendo una diferencia estratégicamente significativa para la planificación presupuestaria de infraestructura.
No de forma general. La infraestructura H100 que se pide hoy y entra en producción en el cuarto trimestre de 2026 aún tendrá entre 2 y 3 años de uso productivo antes de alcanzar la paridad con Vera Rubin en el segmento on-premise. Las cargas de trabajo de entrenamiento se ven menos afectadas que las de inferencia. La pregunta clave es: ¿para qué necesito la capacidad de GPU? Para la escalación de inferencia, la pausa hasta Vera Rubin es sensata. Para entrenamiento, H100 sigue siendo aceptable.
Los análisis TCO basados en costes de nube H100 como línea base subestiman sistemáticamente el atractivo de la nube a partir de 2027. Quien esté realizando actualmente un análisis de infraestructura de IA debería incluir los precios de nube de Vera Rubin como escenario. Las inversiones propias on-premise en IA con un volumen de proyecto superior a 5 millones de EUR deben analizarse explícitamente teniendo en cuenta este factor.
AMD MI350 y MI400 llegan como competencia, pero aún no están en plena producción. Google TPU v6 (Trillium) ya está en producción, pero no está disponible para clientes externos. AWS Trainium 3 e Inferentia 3 están especializados en entrenamiento e inferencia, pero no son compatibles con GPU para cargas de trabajo CUDA existentes. Para empresas DACH sin dependencia propia de chips, Vera Rubin vía nube es la opción más pragmática en 2026.
Fuente imagen principal: Pexels / panumas nikhomkhai (px:17489157)