Expansión de SaaS en la empresa: cómo los CIOs consolidarán su cartera de aplicaciones en 2026
Eva Mickler
7 Min. de lectura En 2026, una gran empresa gestiona una media de 2.191 aplicaciones, de las cuales ...
7 min. de lectura
La generación Blackwell de NVIDIA es en 2026 el producto dominante de infraestructura de IA. Al mismo tiempo, la B200 y la GB200 siguen agotadas hasta mediados de año, con plazos de entrega de ocho a veinte semanas. Para los CIOs, la pregunta no es si NVIDIA es la opción predeterminada, sino cuánta estrategia debe incorporar el stack de IA antes de que llegue la factura y alternativas como la AMD MI350X deban tomarse en serio.
Lo esencial en resumen
RelacionadoNIS2 se vuelve operativo: Tres decisiones para los órganos de dirección / Edge Computing: los compromisos del CIO en la arquitectura de planta
Los datos son claros: la B200 tiene un precio de calle de 35.000 a 40.000 USD por GPU; un sistema DGX B200 con ocho GPUs cuesta entre 350.000 y 400.000 USD. La B300, en el mercado cloud desde enero de 2026, funciona de inmediato como instancia spot; los pedidos on-premise tienen plazos de entrega de doce a veinte semanas. Quien planifique una fábrica de IA en la primavera de 2026 trabaja contra una cadena de suministro que controla NVIDIA, no contra un mercado con varias alternativas realistas en la gama alta.
Esto suena a primera vista como un problema de capacidad, pero es ante todo un problema estratégico. Quien espera seis meses por hardware no puede tomar otras dos decisiones en ese tiempo: qué modelos deben ejecutarse en qué infraestructura, y si el caso de uso propio realmente necesita hardware de nivel frontera. La mayoría de los CIOs que en 2025 entraron en el ciclo de entrega descubrieron durante la espera que una parte de las cargas de trabajo planificadas también podría ejecutarse en GPUs más pequeñas o antiguas. El cuello de botella tiene así un efecto de aprendizaje que resulta estratégicamente valioso, siempre que la espera no sea la única respuesta.
La serie MI350X de AMD es en 2026 por primera vez una candidata seria para infraestructura de IA en producción. Una MI350X cuesta alrededor de 25.000 USD; un nodo de ocho GPUs de Dell, HPE o Supermicro, entre 200.000 y 280.000 USD. El consumo de energía es de 750 vatios TDP por GPU, y un nodo de ocho GPUs consume aproximadamente ocho kilovatios, lo que admite tanto refrigeración por aire como por líquido. El rendimiento es suficiente para muchas cargas de inferencia y gran parte de los trabajos de RAG y ajuste fino. Para el entrenamiento de modelos frontera, el ecosistema de software de NVIDIA con CUDA sigue siendo el estándar de facto.
Intel ha reducido la línea Gaudi y ha señalado su salida de los aceleradores de IA dedicados; la próxima generación Intel llegará entre 2026 y 2027. Para los CIOs esto significa: Intel no es en 2026 una opción viable en el mercado de GPUs para IA. AWS ha desarrollado internamente con Trainium2 una alternativa interesante para clientes que ya trabajan en AWS y están dispuestos a optimizar sus modelos en las rutas del compilador Trainium. Microsoft y Google ofrecen capacidades Blackwell y TPU en sus clouds, con distintos modelos de contrato y reservas anticipadas.
La opción cloud es en 2026 el camino realista para muchas empresas, ya que elimina el riesgo de plazos de entrega de los pedidos de hardware propios. Quienes hasta ahora operaban exclusivamente on-premise encontrarán en NVIDIA DGX Cloud, AWS Bedrock y Azure Machine Learning capacidades escalables reservables sin tiempo de espera. El precio por hora de GPU es superior al de la operación propia, pero el cálculo solo resulta favorable a partir de una utilización constante que muchas cargas de trabajo de IA empresarial nunca alcanzan.
Un factor frecuentemente ignorado es el software. El ecosistema CUDA de NVIDIA se ha convertido en los últimos diez años en un estándar de facto. PyTorch, TensorFlow, Triton Inference Server, NeMo y toda la NVIDIA AI Enterprise Suite ofrecen un paquete completo que AMD aún debe alcanzar con ROCm. En 2026, ROCm es suficientemente maduro para inferencia y ajuste fino; para el entrenamiento de modelos frontera con equipos propios de ciencia de datos, CUDA sigue siendo la opción más productiva. Quien reduce la decisión únicamente al precio del hardware subestima la influencia de la cadena de herramientas en la productividad del equipo.
En AWS Trainium2 ocurre algo similar: el hardware es económicamente atractivo, pero la integración en los frameworks de modelos habituales está más orientada a las herramientas nativas de AWS. Para empresas que ya tienen Inferentia y Trainium en sus pipelines, la evolución es natural. Para nuevos proyectos con un stack heterogéneo, la curva de aprendizaje resulta más pronunciada que con NVIDIA o AMD. La TPU-v5 de Google sigue el mismo patrón: excelente rendimiento en entornos Google Cloud, menos flexible para configuraciones híbridas.
Para los CIOs que este año están organizando su stack de IA, se perfilan tres puntos de decisión que ya no pueden aplazarse.
Argumentos contra NVIDIA on-premise
Argumentos a favor de NVIDIA on-premise
La primera decisión es la ruta de infraestructura: on-premise, cloud o híbrido. Para la mayoría de las empresas será una combinación, pero la ponderación determina los presupuestos y la planificación de personal. Quienes hasta ahora operaban exclusivamente en cloud deberán preguntarse si parte de las cargas de trabajo estables pertenece a hardware propio. Quienes planificaban exclusivamente on-premise deben aceptar que parte de los experimentos se ejecuta más rápido en la cloud.
La segunda decisión se refiere a la combinación de proveedores. Una estrategia exclusivamente NVIDIA es en 2026 rara vez la mejor opción desde la perspectiva de presupuesto y suministro. En la práctica, una combinación de NVIDIA para entrenamiento e inferencia intensiva en CUDA, AMD para inferencia estándar y cargas especializadas, e instancias cloud para capacidad en picos es la configuración más robusta. La tercera decisión recae en el stack de software: ¿qué nivel de abstracción coloca la propia organización entre el modelo y el hardware? Frameworks como PyTorch y vLLM funcionan en ambas familias de GPU, pero la integración en monitorización, programación y asignación de costos es el verdadero esfuerzo.
Otro punto que en el día a día suele subestimarse: los requisitos de energía y refrigeración de los racks de GPU modernos superan lo que muchos centros de datos empresariales pueden ofrecer sin reformas. Un rack B200 con varios sistemas DGX consume fácilmente más de 100 kilovatios, lo que exige refrigeración líquida y una alimentación eléctrica adaptada. Quienes eligen AMD MI350X obtienen la opción de refrigeración por aire y un menor consumo de energía, lo que supone un alivio real para los centros de datos existentes. Estas cuestiones no las resuelve solo el equipo de adquisiciones; pertenecen a la coordinación entre infraestructura TI, instalaciones y el CFO.
El lado del personal es la cuarta dimensión, frecuentemente no mencionada. GPU Ops como especialidad es en 2026 un mercado estrecho. Los perfiles sénior con experiencia en optimización CUDA, entrenamiento multi-nodo y orquestación con Slurm o operadores de Kubernetes son difíciles de contratar y correspondientemente costosos. Quienes sigan una estrategia propia on-premise deben planificar al menos dos o tres puestos a tiempo completo para operaciones, parcheo y ajuste de rendimiento. Para muchas empresas, este es el componente del cálculo TCO que solo queda claro después de la compra. La alternativa cloud es en este punto más austera, porque el operador incorpora parte del trabajo de operaciones en el precio. Eso no significa que la cloud sea siempre más barata; significa que el componente de personal debe tener una posición explícita en la decisión.
También la estructura contractual es en 2026 un campo en el que los CIOs deben profundizar. Los contratos plurianuales con NVIDIA, AMD e hiperescaladores difieren considerablemente en plazos de rescisión, flexibilidad de volumen y escalado de precios. Quien compromete capacidad durante tres años no quiere descubrir en el segundo año que su caso de uso se ha reducido y que los contratos no permiten ajustes. Las fases piloto con plazos más cortos son el punto de entrada pragmático antes de asumir compromisos mayores.
Para la agenda trimestral del CIO, tres pasos que pueden ejecutarse en paralelo y no bloquean la operativa diaria merecen la pena.
El error que muchos CIOs cometieron en 2025 fue mantener la conversación solo con NVIDIA e incorporar alternativas demasiado tarde. Los precios y las condiciones se mueven solo cuando hay opciones reales sobre la mesa. Quien hasta el Q3 de 2026 no tenga una cifra sólida de AMD o de un proveedor cloud no está negociando, sino pagando el precio de lista. En grandes organizaciones eso supone rápidamente una diferencia de seis cifras por trimestre.
Para concluir, una observación que rara vez aparece en las presentaciones al consejo pero que marca la dirección: la decisión sobre el stack de IA ya no es en 2026 una cuestión puramente técnica. Tiene vínculos con la planificación de costos energéticos, la estrategia de cumplimiento, la cuestión de las ubicaciones y el tema del personal. Los CIOs que lo traten como un asunto de TI aislado recibirán en la próxima ronda de supervisión preguntas para las que no tendrán respuesta. Quien aborda el tema de forma amplia e incorpora pronto a los interlocutores relevantes en compras, instalaciones y finanzas, tendrá al final del año una estrategia, no una colección de decisiones aisladas.
Para muchas cargas de inferencia, desde luego. La H100 se sitúa actualmente entre 27.000 y 40.000 USD por GPU y está disponible en plazos significativamente más cortos que la B200. Quienes planeen entrenar modelos frontera optarán por Blackwell, pero para inferencia en producción, la generación Hopper sigue siendo económicamente relevante en 2026.
Una migración completa es en 2026 realista para muy pocas empresas, porque el entrenamiento y los frameworks basados en CUDA siguen orientados a NVIDIA. Lo realista es una combinación en la que AMD se utiliza para inferencia, ajuste fino estándar y cargas especializadas, mientras NVIDIA se mantiene para entrenamiento y trabajos sensibles a CUDA.
Microsoft Azure y AWS ofrecen regiones europeas con la documentación correspondiente sobre residencia de datos y subencargados del tratamiento. NVIDIA DGX Cloud también opera en regiones europeas, con sus propios modelos de contrato. Para requisitos de soberanía más estrictos, entran en juego IONOS, STACKIT y OVHcloud, aunque no alojan la versión más reciente de Blackwell.
La reforma suele durar entre seis y doce meses e incluye la alimentación eléctrica, la refrigeración y los racks. Muchas empresas eligen la colocation como solución intermedia, ya que los operadores modernos ya disponen de la infraestructura. Los costos de capital de la reforma propia solo se justifican habitualmente con una utilización elevada y sostenida de la GPU.
Ambos son relevantes cuando la organización ya ha invertido significativamente en AWS o Google Cloud. Trainium2 y TPU-v5 ofrecen buena relación precio-rendimiento para sus respectivos stacks, pero requieren trabajo de optimización en los modelos. Para empresas sin una vinculación estrecha a un hiperescalador, la ruta NVIDIA o AMD sigue siendo la opción más pragmática.
Opus 4.7 frente a GPT-5.4: inferencia de IA local en proveedores cloud europeos
Predictive Analytics en el ERP: fidelización de clientes en la mediana empresa en 2026
Arquitecturas Zero Trust en sectores regulados
Fuente de la imagen de portada: Pexels / Jeremy Waterhouse (px:3665444)