Un proceso ETL en tres etapas (Extracción, Transformación y Carga) y unas ETL tools adecuadas implementando este concepto, son la respuesta a las necesidades que tienen las organizaciones para gestionar adecuadamente sus datos.
Se trata de almacenar la información de forma eficaz. Los datos sin clasificar, causan problemas a la hora de encontrarlos. El usuario necesita saber qué datos administra, dónde se encuentran y cómo extraerlos. Podría parecer que lo difícil es tomar decisiones basándose en los datos, pero no, la búsqueda de los datos en sí, es a menudo, mucho más complicada.
Sin embargo, las ETL tools son la respuesta a este problema.
Tal vez te interese leer:
Monitorización de Data Quality mediante indicadores de calidad
El acrónimo ETL proviene de Extracting, Transforming, Loading (Extracción Transformación y Carga), lo cual describe muy bien la idea de lo que es un ETL. Las ETL tools se crearon para mejorar y facilitar el data warehousing.
Para saber qué es un ETL lo mejor es revisar cómo es un proceso ETL. Éste consiste en los siguientes pasos:
Algunas veces estos pasos son supervisados y realizados de manera indirecta, pero consumen mucho tiempo y el resultado puede no ser preciso. El propósito utilizar ETL tools es ahorrar tiempo y hacer que todo el proceso sea más fiable.
Las herramientas ETL automatizan las operaciones de extracción de los datos de los sistemas de origen, transformación para usos de procesamiento y analítica y posterior carga en destino, sea cual sea el sistema elegido e independientemente de qué tipo de entrono se trate. Su intervención simplifica el proceso ETL en comparación con los scripts de integración manual en SQL u otros lenguajes de programación.
Para conocer qué es un ETL hace falta entender la configuración interna, capacidades y características de las ETL tools. Entre las más importantes, cabe destacar las siguientes:
No hay que confundir ETL con un término parecido, el ELT, que invierte las etapas finales del proceso, llevando a cabo la carga antes de la transformación. Una opción que se ocupa de la manipulación de los datos una vez se encuentran ya en el sistema de destino.
Se trata de una capacidad recomendada sobre todo para aplicaciones big data en las que, a menudo, se cargan grandes volúmenes de datos en bruto en el sistema Hadoop, Spark o en otros repositorios, y que entonces son filtrados según las necesidades de los diferentes usos analíticos.
A corto plazo, las ETL tools no van a desaparecer, pero el foco de las ETL tools cambiará de “el sitio a los datos”. Va a continuar habiendo un lugar para las ETL tools, ya sea como herramientas ETL independientes o, menos común, como las residuales ETL tools de nivel medio.
Cada vez más, este modelo emergente necesita un único repositorio central para toda la información de negocio. Es decir, un lugar para el almacenamiento masivo. Este puede ser Hadoop, Cassandra o Spark, funcionando como un sistema de archivos distribuido, o de hecho, un servicio de almacenamiento en la nube como puede ser S3. También es necesario acentuar el movimiento de conjuntos de datos derivados más pequeños, desde este repositorio, a los sistemas fuente que lo conforman.
El papel de las ETL tools va a seguir creciendo, no sólo en proporción al volumen de datos, sino que debe abarcar también la explosión de la variedad de datos que están provocando los datos generados por máquinas. Además, con la necesidad de aumentar la velocidad en la toma de decisiones basada en análisis, el pipeline de las ETL tools debe moverse desde el funcionamiento en batch, a lo más cercano posible al tiempo real.
Los proveedores tradicionales de ETL tools y de integración de datos como Informatica, están adaptando sus productos y adaptando sus motores para utilizar Hadoop, Spark y otras plataformas de Big Data, y añadiendo la capacidad de mover datos hacia dentro y fuera de Hadoop.