¿Qué es Datahub, Data Lake y Datawarehouse?

Son muchas las diferencias existentes entre Datahub, Data Warehouse y Data Lake. Esto no quiere decir que un sistema sea mejor que otro, sino que su uso dependerá de lo que necesitemos en cada momento.

dic 18, 2018

Dentro del sector de las nuevas tecnologías enfocadas a las empresas existe un concepto muy utilizado que abarca innumerables cosas y cuya importancia es enorme. Nos estamos refiriendo al Big Data, un campo muy extenso del que podríamos hablar durante horas. En este caso vamos a hacer hincapié en tres opciones que se pueden utilizar dentro de este campo y que conviene saber diferenciar, dado que en ocasiones existen posibilidades de confundirse entre ellas: Datahub, Data Lake y Datawarehouse. ¿En qué se diferencian?

La ciencia de los datos ¿qué es?

Antes de profundizar en los tres conceptos anteriores es importante hablar de la ciencia de los datos. ¿Qué es exactamente?, esta ciencia es la que agrupa los métodos y las técnicas que se deben llevar a cabo para poder obtener el mayor conocimiento a partir de los datos que se han tratado.

Si nos centramos en el modelo Donoho, este dice que la ciencia de los datos se divide en seis categorías:

Representación y transformación de los datos
Modelado de datos
Exploración y preparación de datos
Visualización y presentación de los datos
Computación de datos
Ciencia de la ciencia de los datos

A partir de la ciencia de los datos y sus seis categorías, se pueden establecer estas tres opciones de las que hablamos: Datahub, Data Lake y Data Warehouse.

Tal vez te interese leer:
El futuro del data warehouse está en la nube

Datahub

También conocido como centro de datos, aquí el objetivo es poder integrar todos esos datos en un mismo punto, que sería el centro del que estamos haciendo referencia. En este caso los datos pueden moverse físicamente y tienen la capacidad de ordenarse de nuevo en otro sistema diferente. A diferencia de otros sistemas, Datahub permite que estos datos se ordenen, analicen o se descubran. El principal objetivo de Datahub es que todos esos datos puedan contar con una fuente central teniendo en cuenta las diferentes necesidades comerciales que pueda tener una compañía.

Data Lake

Se trata de un gran lago de datos, denominado así por la metáfora de que los datos se encuentran en el “agua”, que es una sustancia transparente y clara, por lo que se conservan en estado natural y no se han modificado. Lo que queremos decir con esto es que los datos son originales y hay un almacenamiento donde se aglomera una gran cantidad de información de todo tipo, desde los datos estructurados a los no estructurados. Utilizando Data Lake no vamos a poder definir la estructura de los datos hasta que verdaderamente no tengamos esa necesidad. Data Lake suele comercializarse en forma de plataformas que ofrecen sus servicios para gestionar datos y con la ventaja de que se puede utilizar un hardware que no es excesivamente caro.

Data Warehouse

La última opción es Data Warehouse, que se traduce como almacén de datos. Por norma general este sistema se suele utilizar principalmente para los informes y los análisis de datos. Nos encontramos con almacenes centrales que tienen integrados todos los datos, pudiendo proceder de varias fuentes diferentes. Entre las características principales del Data Warehouse podemos destacar las siguientes:

Procesamiento: para llevarlo a cabo, Data Warehouse hace uso de un esquema de escritura, a diferencia de Data Lake que lo hace de lectura.
Almacenamiento: en este caso es más caro que el del lago de datos.
Seguridad: el Data Warehouse cuenta con un almacén seguro que ya está muy maduro, mientras que el lago aún está dentro de este proceso de maduración.
Datos: si decíamos que el Data Lake incluye datos de todo tipo, en el caso de Data Warehouse solo habrá datos estructurados.
Perspectiva: el Data Warehouse es para los negocios, mientras que el lago sirve en mayor medida a los científicos.
Agilidad: el almacén de datos es menos ágil que el Data Lake.

Como podéis ver, son muchas las diferencias existentes entre Datahub, Data Warehouse y Data Lake. Esto no quiere decir que un sistema sea mejor que otro, sino que su uso dependerá de lo que necesitemos en cada momento.

Business Analytics

Expertos en Consultoría de Datos

DATA CONSULTING

ADOPCIÓN TECH

SERVICIOS GESTIONADOS

FARO TECNOLÓGICO

STAFFING IT

Soluciones para Habilitar una Organización Data-Driven

Modernización Cloud & Arquitectura de Datos

Gobierno, Calidad y Cumplimiento del Dato

Democratización y Autoservicio del Dato

Integración de Aplicaciones y Datos de Negocio

Virtualización y Federación de Datos

Analítica Avanzada y Gestión de Plataformas de Datos

Gestión de Datos Maestros y Visión 360°

Protección y Seguridad Integral de Datos

¿Qué es Datahub, Data Lake y Datawarehouse?

La ciencia de los datos ¿qué es?

Datahub

Data Lake

Data Warehouse

Artículos relacionados

Más allá de la IA: Snowflake Cortex como motor de agilidad estratégica

Migrar no es modernizar: el error que sigue frenando muchas iniciativas de datos

Gobierno de datos ante la nueva regulación en Chile: del cumplimiento al valor de negocio

DATA CONSULTING

ADOPCIÓN TECH

SERVICIOS GESTIONADOS

FARO TECNOLÓGICO

STAFFING IT

Modernización Cloud & Arquitectura de Datos

Gobierno, Calidad y Cumplimiento del Dato

Democratización y Autoservicio del Dato

Integración de Aplicaciones y Datos de Negocio

Virtualización y Federación de Datos

Analítica Avanzada y Gestión de Plataformas de Datos

Gestión de Datos Maestros y Visión 360°

Protección y Seguridad Integral de Datos

¿Qué es Datahub, Data Lake y Datawarehouse?

La ciencia de los datos ¿qué es?

Datahub

Data Lake

Data Warehouse

Artículos relacionados

Más allá de la IA: Snowflake Cortex como motor de agilidad estratégica

Migrar no es modernizar: el error que sigue frenando muchas iniciativas de datos

Gobierno de datos ante la nueva regulación en Chile: del cumplimiento al valor de negocio

Subscríbete a nuestro blog y recibe las últimas actualizaciones sobre gestión de datos.