El valor de la gestión de datos

Características de las ETL tools y su futuro en relación al Big Data

Posted on Fri, Feb 17, 2017

Un proceso ETL en tres etapas (Extracción, Transformación y Carga) y unas ETL tools adecuadas implementando este concepto, son la respuesta a las necesidades que tienen las organizaciones para gestionar adecuadamente sus datos.


ETL_tools.jpg

Créditos fotográficos: viking75

Se trata de almacenar la información de forma eficaz. Los datos sin clasificar, causan problemas a la hora de encontrarlos. El usuario necesita saber qué datos administra, dónde se encuentran y cómo extraerlos. Podría parecer que lo difícil es tomar decisiones basándose en los datos, pero no, la búsqueda de los datos en sí, es a menudo, mucho más complicada.

Sin embargo, las ETL tools son la respuesta a este problema.

 

¿Qué es un ETL?

El acrónimo ETL proviene de Extracting, Transforming, Loading (Extracción Transformación y Carga), lo cual describe muy bien la idea de lo que es un ETL. Las ETL tools se crearon para mejorar y facilitar el data warehousing.

Para saber qué es un ETL lo mejor es revisar cómo es un proceso ETL. Éste consiste en los siguientes pasos:

  1. Iniciar
  2. Construir datos de referencia
  3. Extraer desde las fuentes
  4. Validar
  5. Transformar
  6. Cargar en las tablas
  7. Realizar informes de auditoría
  8. Publicar
  9. Archivar
  10. Limpiar

Algunas veces estos pasos son supervisados y realizados de manera indirecta, pero consumen mucho tiempo y el resultado puede no ser preciso. El propósito utilizar ETL tools es ahorrar tiempo y hacer que todo el proceso sea más fiable.

 

¿Cuáles son las características clave tradicionales de las ETL tools?

Las herramientas ETL automatizan las operaciones de extracción de los datos de los sistemas de origen, transformación para usos de procesamiento y analítica y posterior carga en destino, sea cual sea el sistema elegido e independientemente de qué tipo de entrono se trate. Su intervención simplifica el proceso ETL en comparación con los scripts de integración manual en SQL u otros lenguajes de programación.

Para conocer qué es un ETL hace falta entender la configuración interna, capacidades y características de las ETL tools. Entre las más importantes, cabe destacar las siguientes:

  • Compatibilidad con la integración de datos almacenados en sistemas tanto locales como en la nube, incluyendo los entornos de nube híbridos.
  • Capacidad de conectarse y extraer datos de una variedad de fuentes como pueden ser aplicaciones, bases de datos, sistemas big data basados en tecnologías como Hadoop y Spark y repositorios planos de archivos, entre otros.
  • Funciones de perfilado de datos, que permiten llevar a cabo un análisis de la consistencia de los datos ya en origen y antes de iniciarse el proceso ETL, pudiendo evaluar también la existencia de dependencias y otros atributos del dato.
  • Capacidades de desarrollo basadas en equipos que hacen posible la colaboración efectiva en iniciativas de integración.
  • Funciones de calidad y limpieza de datos, que aumentan su confiabilidad.
  • Capacidades que permiten llevar a cabo la sincronización de datos para mantener la coherencia entre sistemas.
  • Capacidades de transformación de datos, que pueden incluir desde el reformateo a la conversión y de la orquestación de flujo de trabajo a la cartografía de datos.
  • Soporte de gestión de metadatos.

 

No hay que confundir ETL con un término parecido, el ELT, que invierte las etapas finales del proceso, llevando a cabo la carga antes de la transformación. Una opción que se ocupa de la manipulación de los datos una vez se encuentran ya en el sistema de destino.

Se trata de una capacidad recomendada sobre todo para aplicaciones big data en las que, a menudo, se cargan grandes volúmenes de datos en bruto en el sistema Hadoop, Spark o en otros repositorios, y que entonces son filtrados según las necesidades de los diferentes usos analíticos.

 

¿Puede el Big Data hacer desaparecer las ETL Tools?

A corto plazo, las ETL tools no van a desaparecer, pero el foco de las ETL tools cambiará de “el sitio a los datos”. Va a continuar habiendo un lugar para las ETL tools, ya sea como herramientas ETL independientes o, menos común, como las residuales ETL tools de nivel medio.

Cada vez más, este modelo emergente necesita un único repositorio central para toda la información de negocio. Es decir, un lugar para el almacenamiento masivo. Este puede ser Hadoop, Cassandra o Spark, funcionando como un sistema de archivos distribuido, o de hecho, un servicio de almacenamiento en la nube como puede ser S3. También es necesario acentuar el movimiento de conjuntos de datos derivados más pequeños, desde este repositorio, a los sistemas fuente que lo conforman.

El papel de las ETL tools va a seguir creciendo, no sólo en proporción al volumen de datos, sino que debe abarcar también la explosión de la variedad de datos que están provocando los datos generados por máquinas. Además, con la necesidad de aumentar la velocidad en la toma de decisiones basada en análisis, el pipeline de las ETL tools debe moverse desde el funcionamiento en batch, a lo más cercano posible al tiempo real.

Los proveedores tradicionales de ETL tools y de integración de datos como Informatica, están adaptando sus productos y adaptando sus motores para utilizar Hadoop, Spark y otras plataformas de Big Data, y añadiendo la capacidad de mover datos hacia dentro y fuera de Hadoop.

 

Integridad de datos

Topics: Data Integration