El valor de la gestión de datos

¿Cómo funcionan las herramientas ETL?

Posted on Thu, Jun 20, 2013

Los procesos ETL son cruciales en la integración de datos. Aprende más sobre  ellos en este eBook gratuito: "Procesos ETL: La base de la inteligencia de negocio".

Un desarrollo reciente en el software ETL es la aplicación de procesamiento paralelo. Este avance ha permitido desarrollar una serie de métodos que mejoran el rendimiento general de los procesos ETL cuando se trata de grandes volúmenes de datos.

Existen principalmente tres tipos de paralelismo que se pueden implementar en las aplicaciones ETL. No sólo no son excluyentes, sino que además pueden combinarse para llevar a cabo una misma operación ETL:

  • Paralelismo de datos: consiste en dividir un único archivo secuencial en pequeños archivos de datos para proporcionar acceso paralelo.
  • Paralelismo de segmentación (pipeline): se basa en permitir el funcionamiento simultáneo de varios componentes en el mismo flujo de datos. Un ejemplo de ello sería buscar un valor en el registro número 1 a la vez que se suman dos campos en el registro número 2.
  • Paralelismo de componente: este tipo de procesamiento consiste en el funcionamiento simultáneo de múltiples procesos en diferentes flujos de datos para el mismo puesto de trabajo.

 

Dificultades en el procesamiento en herramientas ETL

Actualización y sincronización son los caballos de batalla de esta fase del proceso. La convivencia de distintos tipos de datos que provienen de orígenes diferentes plantea esta dificultad y para superarla es necesario:

  • Que los datos que se carguen sean relativamente consistentes, o lo que es lo mismo:
    • Que tengan sentido.
    • Que su contenido esté acorde a las reglas de negocio.
    • Que estén actualizados.
  • Que las fuentes estén sincronizadas, por lo que hay que tener en cuenta los ciclos de actualización de las bases de datos de origen, para lo cual puede ser necesario:
    • Detener ciertos datos momentáneamente.
    • Establecer puntos de sincronización y de actualización, cuando un almacén de datos necesite actualizarse con los contenidos en un sistema de origen.

procesos etl guia gratuita

Topics: Data Warehouse, Data Quality