La soberanía supera al precio: la nueva señal de adjudicación
Angelika Beierlein
8 Min. de lectura El gobierno federal quiere que SAP y Deutsche Telekom construyan su nube de administración ...
4 min. de lectura
El data warehouse centralizado fue durante años el estándar de oro del análisis empresarial. Luego llegó el data lake, que pretendía almacenarlo todo, y a menudo se convirtió en un data swamp. Ahora Data Mesh promete resolver el problema de fondo: ¿quién posee los datos y quién es responsable de su calidad?
La respuesta de Data Mesh es radical: no el departamento de TI, sino los departamentos especializados. Ventas es responsable de los datos de ventas, producción de los datos de producción, RRHH de los datos de RRHH. La plataforma central solo proporciona la infraestructura. Para las pymes, este enfoque es especialmente prometedor, siempre que se aplique de forma pragmática.
El patrón se repite en cualquier empresa mediana o grande: un departamento necesita un nuevo informe. Envía una solicitud al equipo de datos central. El equipo tiene una cola de seis semanas. Cuando el informe está listo, la pregunta ya ha cambiado. El cuello de botella es estructural.
Los equipos de datos centrales no pueden construir con suficiente rapidez el conocimiento de dominio necesario para crear buenos productos de datos. No conocen los datos contables tan bien como el departamento de contabilidad, ni los datos de producción tan bien como el de producción. El resultado: malentendidos, retrabajos e informes que no reflejan la realidad.
Data Mesh resuelve este problema trasladando la responsabilidad donde reside el conocimiento: en los departamentos especializados.
1. Propiedad orientada a dominios: Cada departamento posee y es responsable de sus datos. Esto no significa que cada departamento construya su propio data warehouse, sino que garantiza la calidad, la documentación y la disponibilidad de sus datos.
2. Los datos como producto: Los datos se tratan como productos internos, con SLAs definidos, documentación, versionado y retroalimentación de los usuarios. Cada producto de datos tiene un product owner responsable de su calidad y desarrollo.
3. Plataforma de datos de autoservicio: Una plataforma central proporciona las herramientas con las que los departamentos pueden crear, probar y publicar sus productos de datos de forma autónoma. La plataforma abstrae la complejidad técnica.
4. Gobernanza federada: Los estándares globales de interoperabilidad, seguridad y cumplimiento normativo se definen de forma centralizada, pero se implementan de forma descentralizada. El equipo de gobernanza establece el marco; los dominios lo llenan de contenido.
La versión de libro de texto del Data Mesh presupone cierta madurez: una cultura de datos sólida, departamentos especializados con experiencia y una plataforma de alto rendimiento. La realidad en la empresa mediana es diferente. La entrada pragmática funciona así:
Paso 1: Identificar dos o tres dominios que tengan una alta competencia en datos y una necesidad clara de mejores productos de datos. Los más habituales: ventas, producción, finanzas.
Paso 2: Designar para cada dominio piloto un Data Product Owner — una persona del área de negocio que tenga afinidad con los datos y dedique entre el 20 y el 30 por ciento de su tiempo a los productos de datos.
Paso 3: Definir y poner a disposición un primer producto de datos por dominio. Empezar con algo sencillo: un conjunto de datos bien documentado y fiable que sea utilizable por otras áreas.
Paso 4: Evaluar a los seis meses: ¿Ha mejorado la calidad de los datos? ¿Se están utilizando los productos? ¿Dónde están los puntos de fricción? A continuación, escalar.
Data Mesh no es una decisión tecnológica, pero sí requiere unas bases técnicas:
Data Catalog: Un catálogo central en el que todos los productos de datos sean localizables, estén documentados y puedan ser valorados. Herramientas como DataHub, Atlan o Unity Catalog de Databricks cumplen esta función.
Data Contracts: Acuerdos formales entre productores y consumidores de datos sobre formato, calidad y SLAs. Esto evita que los cambios en la fuente rompan silenciosamente los sistemas posteriores.
Compute y Storage: Las plataformas en la nube como Snowflake, Databricks o BigQuery son adecuadas porque admiten de forma nativa la multitenencia y el acceso en autoservicio. On-premise es posible, pero más costoso.
Importante: la inversión en tecnología para Data Mesh no es mayor que la de un Data Warehouse centralizado. Simplemente se distribuye de forma diferente — menos de forma centralizada, más en herramientas de plataforma y en la capacitación de los dominios.
No. El principio fundamental — trasladar la responsabilidad sobre los datos allí donde reside el conocimiento — funciona a partir de unos 100 empleados y tres o cuatro áreas de negocio claramente delimitadas. El alcance de la implementación escala con el tamaño de la empresa.
Data Mesh y Data Warehouse no se excluyen mutuamente. Muchas implementaciones exitosas utilizan un warehouse existente como capa de plataforma sobre la que los dominios ofrecen sus productos de datos. Data Mesh es un cambio organizativo, no una sustitución tecnológica.
Se transforma en un Platform Team. En lugar de construir informes y pipelines directamente, proporciona las herramientas de autoservicio, define los estándares y apoya a los dominios en el desarrollo de su competencia en datos. El rol no pierde importancia, simplemente cambia.
Mediante tres mecanismos: los Data Contracts definen formalmente las expectativas de calidad. Los controles automatizados de calidad de datos en la plataforma verifican cada entrega de datos. Y las métricas de calidad transparentes en el Data Catalog crean incentivos para ofrecer buenos productos de datos — nadie quiere ser el producto con las peores valoraciones.
Los primeros dominios piloto pueden estar operativos en tres a seis meses. Una escalabilidad a nivel de toda la empresa suele llevar entre 18 y 24 meses. El factor de éxito más importante no es la tecnología, sino la disposición de la organización a descentralizar la responsabilidad de forma efectiva.
Fuente de la imagen de portada: Unsplash / JJ Ying
Fuente imagen de portada: Redacción