Procesos ETL: Extracción. ¿En qué consiste?

La fase de extracción consta a su vez de 3 pasos. Te explicamos cómo se suceden.


Los procesos ETL son cruciales en la integración de datos. Aprende más sobre  ellos en este eBook gratuito: "Procesos ETL: La base de la inteligencia de negocio". 

Todos los procesos ETL constan de tres fases diferenciadas:      

1) Extracción.

2) Transformación.  

3) Carga.

A estas tres partes habría que añadir la etapa de limpieza que, como hemos comentado, actualmente se entiende como una parte separada del propio proceso.

A continuación, vamos a explicar los principales aspectos del funcionamiento de cada una de las fases, así como sus claves y cuestiones a considerar en su planteamiento e implantación.

Los distintos pasos del proceso de extracción

La primera parte del proceso ETL consiste en extraer los datos desde el sistema de origen. Esta fase consta de tres pasos:

  1. Análisis previo de las necesidades. Normalmente, hay una primera etapa de análisis donde se evalúan la necesidades concretas de la organización en cuanto a movimiento y transformación de datos. Por lo general, no se comienza extrayendo toda la información, sino que se empieza con el tratamiento de unos datos concretos según una necesidad puntual y luego se realizan ampliaciones a medida que se van necesitando.

  2. Identificación de archivos. Antes de extraer los datos, se identifica de qué tipo son y en qué formato se encuentran los sistemas fuente. Por ejemplo, si se trata de bases de datos relacionales o no relacionales, archivos planos, archivos complejos, archivos VSAM, WebServices, MainFrame, archivos en Excel, etc. Lo habitual es que los datos de los sistemas de origen provengan de formatos distintos, que tendrán que ser fusionados.

  3. Extracción de los datos. En función de las necesidades detectadas, se procede a la extracción en sí de dichos datos.

Modos de extracción  

Básicamente, existen tres modos distintos de extracción. El tipo de necesidad de la organización es lo que, normalmente, determinará la elección de una u otra forma.

Full Extract o extracción total

Esta modalidad consiste en extraer la totalidad de datos. En este caso, se barren tablas completas que pueden llegar a tener millones de registros.

Incremental Extract o extracción incremental

Se va procesando por lotes únicamente lo que fue modificado o agregado. También puede haber filas que se borren por estar duplicadas, tratarse de datos erróneos, etc.

Update Notification o notificación de actualizaciones

En este caso, solo se van extrayendo los datos a medida que se produce una actualización (por ejemplo, un inserto) .

Estos tres tipos de extracción son manejados por un módulo denominado Change Data Capture (CDC).

Claves del proceso extracción

  • Lo más importantes es que la tarea de extracción cause el mínimo impacto posible en el sistema de origen:

    • Que no afecte a su normal funcionamiento. Para ello es aconsejable programar estas tareas en días y horarios de nula o mínima actividad laboral.

    • Se debe evitar que provoque algún problema de seguridad.

El proceso de extracción ideal es el que apenas se nota

Cualquier organización, empresa o compañía debe exigir que el proceso de extracción de datos desde su fuente o fuentes de origen cause el menor impacto posible. Es decir, que no suponga ningún problema a los empleados que, diariamente, trabajan con los datos y registros.

Una extracción de un número demasiado grande de datos de una sola vez puede llegar a ralentizar, e incluso colapsar, el sistema. Por este motivo, es importante valorar muy bien las necesidades y el alcance de la operación a realizar y, si es necesario, llevar a cabo la operación de forma escalonada en bloques de menor tamaño y/o en las fechas y horas más adecuadas para lograr ese mínimo impacto.

Artículos relacionados

Subscríbete a nuestro blog y recibe las últimas actualizaciones sobre gestión de datos.

Descubre contenido nuevo todos los días para profundizar la transformación digital en tu organización.