Procesos ETL con Paralelismo: Funcionamiento y Tipos

Escrito por Redacción PowerData | 27/08/13 6:45

La mayoría de herramientas para procesos ETL modernas permiten la ejecución en modo paralelo, es decir, la carga no se realiza dato a dato sino por bloques.

Tipos de paralelismos

Particionamiento de datos. En este caso, cada nodo procesa un número determinado de datos (por ejemplo, 1000 filas). La posibilidad y tipo concreto de partición va en función del tipo de base de datos a la cual estoy accediendo. En el caso de un warehouse, todo suele estar particionado, pues en los discos encontramos trozos de tablas con datos.
Pipelining. Este tipo de paralelismo posibilita, una vez se han dividido los datos, tener también particionadas las operaciones que se se van realizando con ellos, como por ejemplo añadir un campo “Y” a cada fila. Dicho de otro modo, permite hacer modificaciones a nivel estructural.
Componentes. Se definen componentes que asignan una referencia a un campo, por ejemplo una letra, y se reutilizan cada vez que se tenga que volver a cambiar ese mismo campo en el resto de filas. Es decir, este tipo de proceso de paralelismo permite crear una lógica y reutilizarla.

Ventajas del paralelismo

Acortar los tiempos de procesamiento.
Impacto positivo en el negocio.
Mejora en la utilización de recursos.

A veces no es posible utilizarlo

Siempre es deseable, y aún más cuando se trabaja con grandes volúmenes de datos, diseñar los procesos ELT de manera que se puedan ejecutar en modo paralelo. Lo que ocurre es que ciertos procesos no lo permiten, puesto que requieren forzosamente una ejecución secuencial (por ejemplo, un proceso “A” que dependa de la finalización de un proceso “B”).

Ver post completo