El valor de la gestión de datos

Ciclo de vida y normalización de una base de datos en el contexto de big data

Posted on Fri, Dec 15, 2017

El big data presenta nuevos desafíos para la gestión de datos que van más allá de la gestión de grandes volúmenes de datos. Un desafío, que a menudo se pasa por alto, es el del ciclo de vida y normalización de una base de datos en este contexto de big data.

ciclo de vida y normalizacion de una base de datos

Créditos fotográficos: iLexx

La gobernanza de datos, tanto de los datos de origen como de sus resultados, en este tipo de bases de datos presenta grandes retos. La comparación del ciclo de vida y normalización de una base de datos tradicional con big data ayuda a comprender uno de los desafíos más complejos del gobierno de datos en este nuevo mundo de datos.

 

Descárgate aquí la guía

 

Las etapas del ciclo de vida de los datos

Un ciclo de vida de datos típico constará de cuatro etapas:

  1. Ingestión. No se puede pensar en el ciclo de vida y normalización de una base de datos sin empezar por el principio, el momento en que las diversas fuentes de datos se incorporan a la plataforma de datos. En esta etapa también es habitual encontrar procesos de verificación y validación de datos básicos, aunque lo principal en este momento es eliminar todos los datos disponibles en una ubicación central (que puede ser un depósito de datos, data warehouse o data lake).
  2. Identificación / Limpieza / Enriquecimiento. Los tipos de datos y los nombres con que aparecen en las columnas son reconocidos. En esta etapa, los datos también pueden enriquecerse y limpiarse.
  3. Normalización. Este paso implica la transformación de los datos a un modelo de datos neutro comercialmente acordado. Aquí, se establecen relaciones entre las diferentes entidades de datos, codificando esencialmente el conocimiento interno y la estructura de los datos. Esta fase también se conoce como etapa de integración de datos y coincide con el momento en que normalmente se introducen las reglas de negocio y las comprobaciones de dominio, así como la validación de datos maestros o de referencia
  4. Presentación. Es el paso final del proceso, cuando se consigue completar la transformación del modelo neutral comercial creado en el paso anterior en una o más representaciones de datos específicas de la empresa. Este modelo a menudo se conoce como un modelo dimensional. Es habitual que, llegados a este punto, se apliquen reglas comerciales adicionales, así como agregaciones y la creación de datos derivados.
  5. Esquema en lectura / esquema en escritura. No puede hablarse del ciclo de vida de los datos al completo sin mencionar el momento en que el usuario los usa. Una diferencia principal entre el almacenamiento de datos tradicional y el de big data es el punto en el que el usuario final interactúa con la información. Así, mientras que en el entorno de almacenamiento de datos tradicional, el consumidor generalmente utilizaría un esquema en escritura bien definido, las plataformas de BI y soluciones de análisis avanzado pueden consumir datos de la capa de presentación para proporcionar informes, cuadros de mando y análisis predictivos, permitiendo al consumidor de datos acceder a la información mucho antes.

 

Ciclo de vida y normalización de una base de datos en entornos Big Data

Al plantearnos el ciclo de vida y normalización de una base de datos, todo lo reacionado con el uso de la información resulta determinante, tanto en cuanto a procesamiento, como en lo referente al coste del ciclo de vida de los datos. Concretamente:

  1. En Big Data, las dos primeras etapas son de alto volumen y bajo coste y esfuerzo. Los datos son abundantes y baratos y la ingestión, identificación y limpieza de los datos es relativamente simple. Sin embargo, el desafío radica la gestión Big Data. La dificultad de los dos últimos procesos del ciclo de vida y normalización de una base de datos tiene que ver con la creación de un significado a partir de un conjunto de datos tan amplio y en gran parte desorganizado (esquema en lectura).
  2. En un entorno tradicional, por el contrario, el almacenamiento de datos requiere una cantidad sustancial de esfuerzo para garantizar la calidad de los datos ingeridos y para transformar los datos en modelos de datos apropiados (esquema en escritura). Algo que se extiende a la aplicación coherente de las reglas comerciales. Sin embargo, la como todos los consumidores tienen la misma visión del universo de datos, el rendimiento en las consultas es bastante elevado y la capacidad de consulta usuaria se ve beneficiada. La densidad de valor de los datos es mucho mayor que en entornos big data. Aquí, cada fila tiene un valor intrínseco.

 

Por último, en cuestiones relativas al ciclo de vida y normalización de una base de datos, hay que tener en cuenta la agilidad. Y eso es algo inherente a big data. Mientras que los data warehouses son notoriamente difíciles, lentos y caros de modificar, los consumidores de datos establecen sus propios criterios y cronogramas dentro de un mundo de grandes datos.

 

New Call-to-action

Topics: Big Data