Como ya hemos visto más de una vez —y nunca está de más repetirlo—, la información es el mayor activo que hoy en día posee una empresa. Y no hay buena información sin buenos datos. En este punto es donde todo el mundo tiene su metodología, sus procedimientos y tecnologías para el manejo de los datos. La clave para seleccionar el mejor sistema de administración de datos es un buen modelo de gobernanza de datos.
Es en ese contexto que nos preguntamos: ¿Data Lake, Big Data, Data Warehouse? ¿Por dónde empezamos?
El aumento de los datos existentes de diferentes fuentes y con diferentes formatos, junto con la necesidad de procesarlos adecuadamente y asegurar su calidad, implica hoy en día una dificultad añadida en el camino hacia el logro de un análisis óptimo para potenciar el rendimiento de las empresas. Veamos algunos números:
-
El tamaño de los datos globales medirá la asombrosa cifra de 40 zettabytes para 2020.
-
Los datos estructurados están creciendo a una tasa del 40% cada año.
-
El contenido, que incluye todo tipo de datos, incluidos los estructurados y no estructurados, crece a un ritmo constante de aproximadamente el 80% anual.
-
Se espera que los datos generados por las máquinas aumentarán 15 veces para este año.
El fenómeno Big Data
El Big Data se utiliza para describir tanto al ecosistema tecnológico como a la industria que se ocupa de datos demasiado grandes o complejos para ser almacenados y/o procesados por medios tradicionales.
Una definición popular de Big Data se describe con las llamadas "4 Vs": Volumen, Variedad, Velocidad y Veracidad:
-
Volumen. Se refiere a la dificultad causada por el tamaño de los datos.
-
Variedad. Habla de la complejidad de tratar con tipos de datos dispares; algunos de sus datos estarán estructurados, semiestructurados o no estructurados y la tecnología para tratar esta variedad no es trivial.
-
Velocidad. Cuando se recogen eventos en tiempo real como datos de IO, tráfico web, transacciones financieras, cambios en la base de datos o cualquier otra cosa que ocurra en tiempo real, la "velocidad" de los datos que fluyen hacia (y en muchos casos, fuera de) sus sistemas puede exceder fácilmente las capacidades de las tecnologías tradicionales de bases de datos.
-
Veracidad. Es la complejidad añadida de tratar con datos que son inválidos, erróneos, maliciosos, malformados o todo lo anterior. Esto añade la necesidad de validación de datos, control de calidad, normalización y más.
Y podríamos añadir una 5 V: el valor de los datos. Y esto depende de cómo los trabajamos.
Tal vez te interese leer:
Negocios ágiles y rentables con gestión de datos cloud-native
¿Qué es una Data Lake?
Un Data Lake (lago de datos) es un depósito de Big Data. Almacena datos de todo tipo en su forma más cruda, es decir, estructurados, no estructurados y semiestructurados, que han sido generados a partir de diferentes fuentes. Un Data Lake es diferente del Data Warehouse. Estos últimos almacenan datos en una forma bien estructurada. Los datos presentes en un lake pueden o no ser utilizados en el futuro, pero los datos de un data Warehouse están destinados a ser utilizados ya que todo lo irrelevante ya ha sido eliminado.
El modelo de negocios de un Data Lake es evolutivo y, según recomendaciones de especialistas de Dell Technologies, se lleva a cabo en tres etapas:
-
Familiarizarse con las tecnologías.
-
Crear una plataforma de datos elástica.
-
Crear una plataforma de creación de valor colaborativa.
En síntesis, Big Data son grandes datos y el Data Lake es el repositorio para ellos.
Y finalmente, ¿en qué consiste Data Governance?
El gobierno de los datos es toda la gestión que se hace para asegurar la integridad, facilidad de uso, seguridad y disponibilidad de los datos de una empresa. Tener o no tener una gestión de datos puede ser la clave para que su estrategia data-driven sea efectiva o no. Por lo menos es imprescindible para Data Analysis y Business Intelligence.
Data Governance es, en realidad, un punto de inflexión en el camino para convertirse en una empresa data-driven. Es un cambio de mentalidad que requiere centrar los esfuerzos en trabajar con la información y tratarla de la manera más adecuada.
Un buen programa de Data Governance se debe asentar en tres pilares básicos:
- Un marco claro de toma de decisiones. Establecer cómo se invierten los datos, ya sea para resolver problemas de calidad de los datos o sólo para inversiones de análisis.
- Confianza. Para muchos consumidores de analítica hay un gran grado de opacidad en torno a las definiciones detrás de los informes que están viendo. A diferencia de lo que sucede con una planilla de cálculos, donde las fórmulas se transparentan directamente bajo el puntero, cuando nos movemos a plataformas de informes y análisis más modernas, éstas se vuelven mucho más opacas. No podemos ver necesariamente las definiciones con sólo mirar el nivel de superficie del informe.
- Colaboración. Puedes tener varios equipos de analistas o diferentes personas dentro de diferentes unidades de negocio, que también producen su propia mezcla de datos o informes. Lo que queremos hacer es convertir eso en una asociación entre el equipo de analistas en un tipo central de equipo de IT o de Inteligencia de Negocios a uno más colegiado o colaborativo en lugar de competitivo.
Según un estudio, solo el 20% de las organizaciones que inviertan en la gobernanza de la información logrará escalar la gobernanza para los negocios digitales
Fuente: Gartner
|
Para sintetizar, estamos en un momento en el que la abundancia de información (Big Data) nos lleva a probar nuevas y más eficientes herramientas (Data Lake) para que los datos se alineen con nuestro negocio. Lo que no debemos olvidar es que sólo con una buena política de gestión de los datos (Data Governance) podremos lograr que éstos jueguen a nuestro favor.