Procesos ETL con Paralelismo: Funcionamiento y Tipos

La mayoría de herramientas para procesos ETL modernas permiten la ejecución en modo paralelo: la carga no se realiza dato a dato sino por bloques.


La mayoría de herramientas para procesos ETL modernas permiten la ejecución en modo paralelo, es decir, la carga no se realiza  dato a dato sino por bloques.

Los procesos ETL son cruciales en la integración de datos. Aprende más sobre  ellos en este eBook gratuito: "Procesos ETL: La base de la inteligencia de negocio". 

Tipos de paralelismos

  • Particionamiento de datos. En este caso, cada nodo procesa un número determinado de datos (por ejemplo, 1000 filas). La posibilidad y tipo concreto de partición va en función del tipo de base de datos a la cual estoy accediendo. En el caso de un warehouse, todo suele estar particionado, pues en los discos encontramos trozos de tablas con datos.

  • Pipelining. Este tipo de paralelismo posibilita, una vez se han dividido los datos, tener también  particionadas las operaciones que se se van realizando con ellos, como por ejemplo añadir un campo “Y” a cada fila. Dicho de otro modo, permite hacer modificaciones a nivel estructural.

  • Componentes. Se definen componentes que asignan una referencia a un campo, por ejemplo una letra, y se reutilizan cada vez que se tenga que volver a cambiar ese mismo campo en el resto de filas. Es decir, este tipo de proceso de paralelismo permite crear una lógica y reutilizarla.

Ventajas del paralelismo

  • Acortar los tiempos de procesamiento.

  • Impacto positivo en el negocio.

  • Mejora en la utilización de recursos.

A veces no es posible utilizarlo

Siempre es deseable, y aún más cuando se trabaja con grandes volúmenes de datos, diseñar los procesos ELT de manera que se puedan ejecutar en modo paralelo. Lo que ocurre es que ciertos procesos no lo permiten, puesto que requieren forzosamente una ejecución secuencial (por ejemplo, un proceso “A” que dependa de la finalización de un proceso “B”).

procesos etl guia gratuita

Artículos relacionados

Subscríbete a nuestro blog y recibe las últimas actualizaciones sobre gestión de datos.

Descubre contenido nuevo todos los días para profundizar la transformación digital en tu organización.