El Valor de la Gestión de Datos

Staging: la salvaguarda de los procesos ETL

Escrito por Redacción PowerData | 20/08/13 6:00

Con el objeto de minimizar al máximo nivel los posibles errores o problemas en la fase de carga de los procesos ETL, normalmente se reserva un área de disco para poder recuperar los datos por etapas. Por eso podemos afirmar que el staging está estrechamente relacionado tanto con el gerenciamiento como con la recuperación de datos.

 
 

 

Funcionamiento del staging

  1. En primer lugar, los datos son volcados por bloques o etapas y de forma independiente en un área del disco denominada staging area.

  2. Posteriormente, se cargan los datos desde la staging area a su lugar o sistema de destino  (data warehousing).

Ventajas de utilizar una staging area

  • Permite independizar el proceso de carga por bloques o etapas. Lo cual es muy útil y práctico cuando se trabaja con millones de datos, ya que evita tener que reiniciar el proceso entero en caso de error o avería. Por ejemplo, si se produjese un corte eléctrico, solo habría que repetir el volcado de datos del bloque específico en el que se ha producido la incidencia, estando el resto de información a buen recaudo y segura en el área de staging.

  • Si se implementa correctamente, posibilita reiniciar las distintas fases del proceso ETL de manera independiente. Esto significa que si, por ejemplo, falla el proceso de transformación, bastaría con volver a repetir esta fase, pero no sería necesario repetir la etapa anterior: la de extracción.

  • La compilación de los distintos bloques o etapas del proceso de staging puede incluso adaptarse a las necesidades de los clientes, aunque siempre que esté contemplado previamente en el proceso general del ETL.

  • Al tratarse de un disco físicamente independiente, en ningún caso afecta ni ralentiza otros procesos del sistema.

 

Principales características de un proceso de staging  

  • Únicamente el desarrollador del ETL debería tener acceso al área de staging, tanto para salvaguardar la confidencialidad de los datos, como para evitar complicaciones derivadas de que, por error, alguien intentase acceder a los datos a través del staging  area , lo cual podría  generar incidencias.

  • A los usuarios nunca se les da acceso a esta área especial de staging area, aunque sí a los que tengan el perfil de administrador, no porque en realidad lo necesiten sino por si surgiese algún problema o imprevisto.

  • El staging se utiliza tanto durante el proceso de extracción-transformación como en el de transformación-carga.

  • Los procesos de staging, inevitablemente, aumentan la duración total del proceso ETL.

 

Un proceso altamente recomendable pese a suponer un costo adicional de tiempo y recursos   

Si bien tiene un costo adicional de recurso y tiempo total de duración del proceso ETL, el área de staging es fundamental y ampliamente utilizada para permitir un óptimo gerenciamiento de los procesos ETL.