El valor de la gestión de datos

¿Qué son los procesos ETL?

Posted on Tue, Jun 6, 2017

Los procesos ETL son una parte de la integración de datos, pero es un elemento importante cuya función completa el resultado de todo el desarrollo de la cohesión de aplicaciones y sistemas.

Herramienta_ETL_Informatica.jpg
La palabra ETL corresponde a las siglas en inglés de:

    •    Extraer: extract.
    •    Transformar: transform.
    •    Y Cargar: load.
 
Con ello, queremos decir que todo proceso ETL consta precisamente de estas tres fases: extracción, transformación y carga. Vamos a definir en qué consisten cada una de estas fases.

Los procesos ETL son cruciales en la integración de datos. Aprende más sobre  ellos en este eBook gratuito:

Fase de Extracción

Para llevar a cabo de manera correcta el proceso de extracción, primera fase del ETL, hay que
seguir los siguientes pasos:

● Extraer los datos desde los sistemas de origen.
● Analizar los datos extraídos obteniendo un chequeo.
● Interpretar este chequeo para verificar que los datos extraídos cumplen la pauta o
estructura que se esperaba. Si no fuese así, los datos deberían ser rechazados.
● Convertir los datos a un formato preparado para iniciar el proceso de transformación

Además, uno de las prevenciones más importantes que se deben tener en cuenta durante el proceso de extracción sería el exigir siempre queesta tarea cause un impacto mínimo en el sistema de origen. Este requisito se basa en la práctica ya que, si los datos a extraer son muchos, el sistema de origen se podría ralentizar e incluso colapsar, provocando que no pudiera volver a ser utilizado con normalidad para su uso cotidiano.

Fase de Transformación

La fase de transformación de un proceso de ETL aplica una serie de reglas de negocio o funciones, sobre los datos extraídos para convertirlos en datos que serán cargados. Estas directrices pueden ser declarativas, pueden basarse en excepciones o restricciones pero, para potenciar su pragmatismo y eficacia, hay que asegurarse de que sean:

● Declarativas.
● Independientes.
● Claras.
● Inteligibles.
● Con una finalidad útil para el negocio.

Proceso de Carga

En esta fase, los datos procedentes de la fase anterior (fase de transformación) son cargados en el sistema de destino. Dependiendo de los requerimientos de la organización, este proceso puede abarcar una amplia variedad de acciones diferentes.

Existen dos formas básicas de desarrollar el proceso de carga:


Acumulación simple: esta manera de cargar los datos consiste en realizar un resumen de
todas las transacciones comprendidas en el período de tiempo seleccionado y transportar
el resultado como una única transacción hacia el data warehouse, almacenando un valor
calculado que consistirá típicamente en un sumatorio o un promedio de la magnitud
considerada. Es la forma más sencilla y común de llevar a cabo el proceso de carga.

Rolling: este proceso sería el más recomendable en los casos en que se busque mantener
varios niveles de granularidad. Para ello se almacena información resumida a distintos
niveles, correspondientes a distintas agrupaciones de la unidad de tiempo o diferentes
niveles jerárquicos en alguna o varias de las dimensiones de la magnitud almacenada (por
ejemplo, totales diarios, totales semanales, totales mensuales, etc.).


Sea cual sea la manera elegida de desarrollar este proceso, hay que tener en cuenta que esta
fase interactúa directamente con la base de datos de destino y, por eso, al realizar esta operación se aplicarán todas las restricciones que se hayan definido en ésta. Si están bien definidas, la calidad de los datos en el proceso ETL estará garantizada. Aprende más sobre los procesos ETL con el ebook gratuito "Procesos ETL: Extract, Transform, Load".

 

Aplicaciones de los procesos ETL


Gracias a los procesos ETL es posible que cualquier organización:


    •    Mueva datos desde una o múltiples fuentes.
    •    Reformatee esos datos y los limpie, cuando sea necesario.
    •    Los cargue en otro lugar como una base de datos, un data mart o un data warehouse.
    •    Una vez alojados en destino, esos datos se analicen.
    •    O, cuando ya están cargados en su ubicación definitiva, se empleen en otro sistema operacional, para apoyar un proceso de negocio.
 
No obstante, las herramientas ETL no tienen por qué utilizarse sólo en entornos de Data Warehousing o construcción de un Data Warehouse, sino que pueden ser útiles para multitud de propósitos, como por ejemplo:


   •  Tareas de Bases de datos: que también se utilizan para consolidar, migrar y sincronizar
bases de datos operativas.
   •  Migración de datos entre diferentes aplicaciones por cambios de versión o cambio de
aplicativos.
   •  Sincronización entre diferentes sistemas operacionales (por ejemplo, entre nuestro entorno
ERP y la web de ventas).
   •  Consolidación de datos: sistemas con grandes volúmenes de datos que son consolidados
en sistemas paralelos, ya sea para mantener históricos o para llevar a cabo procesos de
borrado en los sistemas originales.
   •  Interfases de datos con sistemas externos: como el envío de información a clientes o
proveedores. También servirían para la recepción, proceso e integración de la información
recibida.
   •  Interfases con sistemas Frontoffice: serían interfases de subida/bajada con sistemas de
venta.
   •  Otros cometidos: como la actualización de usuarios a sistemas paralelos o la preparación de procesos masivos (tipo mailings o newsletter).

Otros usos de los procesos ETL

Los procesos ETL no sólo se utilizan cuando sobreviene la aparición de nuevas aplicaciones que se han de incorporar a las rutinas de la organización, sino que también es frecuente emplearlas para la integración con sistemas heredados.


Cuando se habla de sistemas heredados se está haciendo referencia a las aplicaciones antiguas que existen en el entorno de la empresa. Muchas veces, estos sistemas se deben integrar con nuevos aplicativos, por ejemplo con ERPs.


La principal dificultad que puede presentarse en este tipo de situaciones es que la tecnología utilizada en estas aplicaciones antiguas complica la integración con los nuevos programas.

procesos etl en profundidad

Topics: Data Warehouse, Data Quality