El método de Data Vault para modelar un data warehouse nació de la necesidad. Los proyectos de data warehouse suelen tener que lidiar con unos tiempos de implementación excesivamente largos. Esto implica que las necesidades empresariales pueden cambiar en el transcurso del proyecto, poniendo en peligro el logro de los plazos de implementación y los costes del proyecto.
Para mejorar los tiempos de implementación, se introdujo el método Data Vault para modelar el data warehouse. El principio de diseño implica separar las claves del negocio, el contexto y las relaciones en distintas tablas como hub, satélite y enlaces.
Un hub contiene la clave de negocio real (uno o más campos que identifican de forma exclusiva una entidad para la empresa, por ejemplo, un número de cliente) y una clave sustituta que se utiliza para conectar esta tabla con otras estructuras (equivalente a una clave primaria). Además, también puede contener metadatos como marcas de tiempo o información sobre el origen de datos. Los enlaces a continuación conectan los hubs con una tabla simple muchos-a-muchos consistente en las claves respectivas de sustitución.
Por este medio, los hubs y los enlaces representan la parte más estable de un modelo y se enriquecen con los llamados satélites. Un satélite está conectado a un hub con su clave de sustitución y contiene uno o más atributos descriptivos que normalmente están agrupados por un sistema de origen, un contexto de negocio o una tasa de cambio. Además, una tabla de satélites también puede comprender diferentes tipos de metadatos, como períodos de fecha válidos e información sobre su origen.
Un modelo de Data Vault básico podría estar formado por un hub de pedidos muy simple y un concentrador de clientes, así como enlaces y satélites relacionados. En este modelo, el centro de clientes podría tener dos satélites: uno con datos maestros que posiblemente proviene del sistema CRM y otro con un atributo llamado smartphone que puede provenir de un sistema de análisis web.
Pero junto con los muchos beneficios, los proyectos de Data Vault también presentan una serie de desafíos.
¿Cómo se pueden dominar estos retos utilizando una herramienta estándar de modelado de datos? La estructura altamente esquemática de los modelos ofrece los prerrequisitos ideales para generar modelos. Esto permite que partes importantes del proceso de modelado sean automatizadas, permitiendo acelerar dramáticamente los proyectos de Data Vault.
¿Qué partes específicas del modelo pueden ser automatizadas? La arquitectura estándar de un data warehouse incluye las siguientes capas:
Tanto el área de ensayo como el Raw Vault son muy adecuadas para la automatización, ya que se pueden establecer reglas de derivación claramente definidas a partir de la capa anterior.