El valor de la gestión de datos

¿Qué es warehouse y qué debe contemplar un data warehouse moderno?

Posted on Thu, Mar 30, 2017

Una definición de qué es warehouse en relación a datos, o más concretamente un data warehouse, podría ser la siguiente: un data warehouse es un sistema utilizado para reportar y analizar datos. Los data warehouse son repositorios centrales de datos que integran una o más fuentes de datos dispares. Almacenan datos actuales e históricos y son utilizados para crear informes analíticos para los trabajadores del conocimiento de toda la empresa.

 

que_es_warehouse.jpg

Créditos fotográficos: MickeyCZ

 

Para entender por completo qué es warehouse y el proceso de data warehousing se deben de considerar las tres capas generales que, aunque no son obligatorias, sí son frecuentemente utilizadas, dependiendo de la arquitectura del data warehouse:

  • Capa de integración en la que se almacenan y preparan los datos brutos extraídos.
  • Capa principal del data warehouse donde los datos se adaptan al modelo de datos homogéneo de la empresa.
  • Capa de data marts y strategic marts, que proporciona extractos específicos del data warehouse corporativo.

Estas capas, a menudo presentan una compleja lógica interna de negocios y de transformación y, algunas veces, no son fácilmente distinguibles como bloques arquitectónicos discretos. Los desarrollos recientes han simplificado esto y permiten optimizaciones significativas.

 

Entender los distintos componentes para saber qué es warehouse

Hoy día, quienes saben qué es warehouse entienden que este almacén de datos ya no sólo se nutre de información generada por los sistemas internos. Esos tiempos han quedado atrás y la realidad a nivel de arquitectura de datos de cualquier organización es diferente. Nuevos formatos, fuentes de datos alternativas y distintos tipos de información dotan de complejidad a una estructura esencial en el proceso de generación de conocimiento.

Entre los elementos que componen el almacén de datos, y cuya comprensión permite conocer qué es warehouse, se encuentran los siguientes:

  1. Servicios de acceso a datos: a diferencia de los almacenes de información tradicionales, en los actuales es preciso disponer de capacidades de servicios de acceso a los datos ampliadas. Sólo de esta forma es posible garantizar el acceso a fuentes NoSQL, la conmutación flexible entre métodos de acceso a datos, la transformación de datos no estructurados o la adaptación a fuentes en la nube. , acceso a fuentes NoSQL y posibilidades de calidad y transformación para geocodificación y datos no estructurados. Todas estas diferentes tecnologías deben ser gestionadas y supervisadas por el almacén de datos lógico. Es importante que las soluciones de data warehouse ofrezcan un alto grado de flexibilidad en este área.
  2. Preparación de datos: este componente se ocupa de llevar a cabo las comprobaciones y reparaciones de los datos. Gracias a su intervención se puede garantizar la confiabilidad de la fuente (linaje de datos), así como que se cumplen las condiciones mínimas de completitud, integridad y otros atributos de la calidad del dato. La preparación de datos es importante especialmente para el trabajo con datos no estructurados, aunque, precisamente son éstos los que requieren de la participación de especialistas en el proceso, apoyados por las herramientas adecuadas.
  3. Modelado: en un entorno de almacén de datos moderno, las necesidades de modelado están muy relacionadas con la capacidad para hacer frente a diferentes semánticas de datos de procedencias diversas. Entender qué es warehouse es asumir que el enfoque de modelado no debe ser único, sino adaptable a los procesos de negocio y las necesidades de la organización.
  4. Metadatos: los datos sobre los datos ganan en importancia en los nuevos almacenes puesto que es necesario que éstos puedan asimilar los cambios en la forma en que los datos están representados. Los metadatos hacen posible que contexto y naturaleza se descubran independientemente de su representación real.

 

El almacén de datos diversificado de hoy en día tiene que estar preparado para poder cubrir las necesidades usuarias, ya se trate de demandas relacionadas con información on premise, ya se trate de big data o del cloud.

 

Data Lake

 

Topics: Data Warehouse