Dentro del sector de las nuevas tecnologías enfocadas a las empresas existe un concepto muy utilizado que abarca innumerables cosas y cuya importancia es enorme. Nos estamos refiriendo al Big Data, un campo muy extenso del que podríamos hablar durante horas. En este caso vamos a hacer hincapié en tres opciones que se pueden utilizar dentro de este campo y que conviene saber diferenciar, dado que en ocasiones existen posibilidades de confundirse entre ellas: Datahub, Data Lake y Datawarehouse. ¿En qué se diferencian?
La ciencia de los datos ¿qué es?
Antes de profundizar en los tres conceptos anteriores es importante hablar de la ciencia de los datos. ¿Qué es exactamente?, esta ciencia es la que agrupa los métodos y las técnicas que se deben llevar a cabo para poder obtener el mayor conocimiento a partir de los datos que se han tratado.
Si nos centramos en el modelo Donoho, este dice que la ciencia de los datos se divide en seis categorías:
-
Representación y transformación de los datos
-
Modelado de datos
-
Exploración y preparación de datos
-
Visualización y presentación de los datos
-
Computación de datos
-
Ciencia de la ciencia de los datos
A partir de la ciencia de los datos y sus seis categorías, se pueden establecer estas tres opciones de las que hablamos: Datahub, Data Lake y Data Warehouse.
Tal vez te interese leer:
El futuro del data warehouse está en la nube
Datahub
También conocido como centro de datos, aquí el objetivo es poder integrar todos esos datos en un mismo punto, que sería el centro del que estamos haciendo referencia. En este caso los datos pueden moverse físicamente y tienen la capacidad de ordenarse de nuevo en otro sistema diferente. A diferencia de otros sistemas, Datahub permite que estos datos se ordenen, analicen o se descubran. El principal objetivo de Datahub es que todos esos datos puedan contar con una fuente central teniendo en cuenta las diferentes necesidades comerciales que pueda tener una compañía.
Data Lake
Se trata de un gran lago de datos, denominado así por la metáfora de que los datos se encuentran en el “agua”, que es una sustancia transparente y clara, por lo que se conservan en estado natural y no se han modificado. Lo que queremos decir con esto es que los datos son originales y hay un almacenamiento donde se aglomera una gran cantidad de información de todo tipo, desde los datos estructurados a los no estructurados. Utilizando Data Lake no vamos a poder definir la estructura de los datos hasta que verdaderamente no tengamos esa necesidad. Data Lake suele comercializarse en forma de plataformas que ofrecen sus servicios para gestionar datos y con la ventaja de que se puede utilizar un hardware que no es excesivamente caro.
Data Warehouse
La última opción es Data Warehouse, que se traduce como almacén de datos. Por norma general este sistema se suele utilizar principalmente para los informes y los análisis de datos. Nos encontramos con almacenes centrales que tienen integrados todos los datos, pudiendo proceder de varias fuentes diferentes. Entre las características principales del Data Warehouse podemos destacar las siguientes:
-
Procesamiento: para llevarlo a cabo, Data Warehouse hace uso de un esquema de escritura, a diferencia de Data Lake que lo hace de lectura.
-
Almacenamiento: en este caso es más caro que el del lago de datos.
-
Seguridad: el Data Warehouse cuenta con un almacén seguro que ya está muy maduro, mientras que el lago aún está dentro de este proceso de maduración.
-
Datos: si decíamos que el Data Lake incluye datos de todo tipo, en el caso de Data Warehouse solo habrá datos estructurados.
-
Perspectiva: el Data Warehouse es para los negocios, mientras que el lago sirve en mayor medida a los científicos.
-
Agilidad: el almacén de datos es menos ágil que el Data Lake.
Como podéis ver, son muchas las diferencias existentes entre Datahub, Data Warehouse y Data Lake. Esto no quiere decir que un sistema sea mejor que otro, sino que su uso dependerá de lo que necesitemos en cada momento.