El método de Data Vault para modelar un data warehouse nació de la necesidad. Los proyectos de data warehouse suelen tener que lidiar con unos tiempos de implementación excesivamente largos. Esto implica que las necesidades empresariales pueden cambiar en el transcurso del proyecto, poniendo en peligro el logro de los plazos de implementación y los costes del proyecto.
Para mejorar los tiempos de implementación, se introdujo el método Data Vault para modelar el data warehouse. El principio de diseño implica separar las claves del negocio, el contexto y las relaciones en distintas tablas como hub, satélite y enlaces.
Conceptos de hub, satélites y enlaces
Un hub contiene la clave de negocio real (uno o más campos que identifican de forma exclusiva una entidad para la empresa, por ejemplo, un número de cliente) y una clave sustituta que se utiliza para conectar esta tabla con otras estructuras (equivalente a una clave primaria). Además, también puede contener metadatos como marcas de tiempo o información sobre el origen de datos. Los enlaces a continuación conectan los hubs con una tabla simple muchos-a-muchos consistente en las claves respectivas de sustitución.
Por este medio, los hubs y los enlaces representan la parte más estable de un modelo y se enriquecen con los llamados satélites. Un satélite está conectado a un hub con su clave de sustitución y contiene uno o más atributos descriptivos que normalmente están agrupados por un sistema de origen, un contexto de negocio o una tasa de cambio. Además, una tabla de satélites también puede comprender diferentes tipos de metadatos, como períodos de fecha válidos e información sobre su origen.
Un modelo de Data Vault básico podría estar formado por un hub de pedidos muy simple y un concentrador de clientes, así como enlaces y satélites relacionados. En este modelo, el centro de clientes podría tener dos satélites: uno con datos maestros que posiblemente proviene del sistema CRM y otro con un atributo llamado smartphone que puede provenir de un sistema de análisis web.
Beneficios de un Data Warehouse en el ámbito de Data Vault
- La facilidad de ampliación permite un enfoque de proyecto ágil.
- Los modelos creados son altamente escalables.
- Los procesos de carga pueden ser paralelizados de forma óptima porque hay pocos puntos de sincronización.
- Los modelos son fáciles de auditar
Pero junto con los muchos beneficios, los proyectos de Data Vault también presentan una serie de desafíos.
Desafíos de un Data WareHouse en el ámbito de Data Vault
- Hay un gran aumento en el número de objetos de datos (tablas, columnas) como resultado de separar los tipos de información y enriquecerlos con la meta información para la carga.
- Esto da lugar a un mayor esfuerzo de modelización que comprende numerosas tareas mecánicas no sofisticadas
¿Cómo se pueden dominar estos retos utilizando una herramienta estándar de modelado de datos? La estructura altamente esquemática de los modelos ofrece los prerrequisitos ideales para generar modelos. Esto permite que partes importantes del proceso de modelado sean automatizadas, permitiendo acelerar dramáticamente los proyectos de Data Vault.
Posibilidad de automatizar el Data Warehouse
¿Qué partes específicas del modelo pueden ser automatizadas? La arquitectura estándar de un data warehouse incluye las siguientes capas:
- Sistema de origen: Sistema operativo, como sistemas ERP o CRM
- Área de ensayo: Aquí es donde los datos son entregados desde los sistemas operativos. La estructura del modelo de datos generalmente se corresponde con el sistema de origen, con mejoras para documentar la carga.
- Núcleo de almacén: Aquí se integran los datos de varios sistemas. Esta capa se modela de acuerdo con el Data Vault y se subdivide en las áreas de Raw Vault y Business Vault. Esto implica la implementación de todas las reglas de negocio en el Business Vault de modo que sólo las transformaciones muy simples se utilizan en el Raw Vault.
- Data marts: La estructura de los data marts se basa en los requisitos de análisis y se modela como un esquema en estrella.
Tanto el área de ensayo como el Raw Vault son muy adecuadas para la automatización, ya que se pueden establecer reglas de derivación claramente definidas a partir de la capa anterior.