El Valor de la Gestión de Datos

Big Data Governance. Tomando el control del Big Data

Escrito por Redacción PowerData | 22/10/13 6:00

Big data governance es un proceso que proporciona un marco para establecer políticas de uso e implementar controles diseñados para asegurar que la información permanezca exacta, consistente y accesible. En el caso del big data, la gobernanza de estos datos presenta un desafío significativo ya que se deben categorizar, modelar y mapear los datos a medida que son capturados y almacenados, con el inconveniente de que se trata de datos cuya naturaleza, en su mayor parte, es no estructurada. Big data governance puede ayudar a las organizaciones a aprovechar al máximo su big data.

 

 

Tal vez te interese leer: 
Bases de datos inteligentes en un mundo inteligente

 

 

El decisivo papel del Big Data

Nos importan los datos, nos interesa la información pero ¿podemos controlarla? ¿Sabemos protegerla? ¿Estamos capacitados para determinar los límites de su uso? Con Big Data logramos acceder a ella de una forma totalmente novedosa y en cierto modo, abrumadora pero de nada nos serviría sin un gobierno. Big Data Governance es el gobierno de la información y, con Big Data, su papel se vuelve aún más decisivo debido a:

  • Vista única de cliente: ¿Cómo combinamos estos datos recién adquiridos del cliente con todo lo que hemos ido acumulando a crear un mundo más amplio la comprensión del cliente? Datos antiguos, recién adquiridos, todo cuenta, pero no todo cuenta igual. Aquí es donde interviene Big Data Governance que ayuda a usar mucha más información de cada cliente y a gestionarla de forma eficaz. Su función es de gran importancia puesto que ahora se tiene acceso a los datos más completos sobre cómo los clientes utilizan sus productos para sus comunicaciones, contenidos y/o  las necesidades del comercio y por eso es necesario :
    1. Tener más claro el origen de la información.
    2. Priorizar unas versiones sobre otras, unos datos sobre otros.
    3. Determinar qué información es necesario acumular y cuál no. 

  • Veracidad de la información: hay que encontrar la manera de homogeneizar la información obtenida para que pueda ser usada con confianza. Aquí, Data Governance se ocupa de gestionar los diferentes niveles de calidad de los datos, ya que cada uno de ellos proviene de una variedad que podría denominarse "parcial“ y por eso interviene para:
     
    1. Establecer las reglas del juego.

    2. Velar por su correcta aplicación.

    3. Definir los niveles de importancia que ayudarán a estructurar la información.

    4. Trabajar para garantizar la fiabilidad del dato.

    5. ILM (Information lifecycle management): la información es un flujo continuo que nunca se agota y la importancia de la gestión es crítica. El volumen de información a que se tiene acceso hace que el ciclo de vida del dato deba ser necesariamente controlado con políticas específicas que indiquen cuánto tiempo se prolongará su validez. Esta gestión hace falta tanto cuando se trabaja en entornos de real-time con tiempos de respuesta muy cortos; como cuando se habla de elevados volúmenes de datos históricos y hay que decidir la frecuencia de archivo de la información usando infraestructuras más económicas TIER-1, 2 o 3. Por eso es necesario que Data Governance se encargue de:
       
      • Administrar los datos.

      • Establecer el ciclo de vida de cada dato.

      • Descifrar el tiempo de interés de la información y enunciar políticas de datos acordes a él.

      • Observar el cumplimiento de la legalidad vigente.

 

 

¿Que hace al Big Data Governance diferente al data governance habitual?

Hay varias cosas sobre big data que pueden cambiar el entendimiento previo que tenemos sobre data governance. Cada una de esas cosas requiere de un nuevo enfoque para gobernar los activos de datos de forma efectiva:

  • Variedad de activos: La primera gran diferencia es el número de diferentes tipos de activos de datos, y el hecho de que siguen creciendo. Ubicaciones de los flujos, información de sensores para fuentes de Internet de las cosas (IoT), etc. ya forman parte del panorama de datos actual y deben tenerse en cuenta en sus políticas y procedimientos.

  • Falta de separación física entre las clases de datos: La segunda diferencia es más sutil, pero es un subproducto de la forma en que hemos utilizado nuestras topologías de gestión de información para segregar datos. A menudo, nos basamos en la separación física de algunos datos para identificarla como algo sensible de alguna manera, y para administrar los controles alrededor de esos datos. En el mundo del big data, si bien los datos pueden estar distribuidos, esa separación física a menudo no existe, y deben utilizarse otros medios para identificar qué datos son sensibles y quién tiene la responsabilidad de ello. Los procesos de gobernanza necesitan mantener esta información.

  • Crear valor combinando datos que no han sido relacionados antes: Además, el intercambio de datos es a menudo un proceso que no ha sido formalizado. El objetivo de un data lake es crear un entorno donde todos los datos puedan ser fácilmente utilizados. Esto significa que las diferentes partes de la organización que es propietaria de los datos deben estar de acuerdo en proveerlos y provionarlos de manera controlada. Además, los datos ahora pueden ser compartidos con muchas partes de la organización, a menudo sin mucho esfuerzo de su parte. Esto significa que los requisitos de intercambio de datos deben negociarse explícitamente, de manera que todos los usuarios de los datos entiendan lo que deben y no deben hacer con los datos. Además, el alcance de los desajustes semánticos aumenta, ya que diferentes partes de la organización utilizarán los mismos términos con diferentes significados.

  • Procesos más variados y flexibles: En lugar de las definiciones de principios y determinación de políticas basadas en ETL, el big data implica un enfoque de "hazlo como necesites" para gobernar. Esto a su vez significa que el sistema de automatización para esa gobernanza necesita ser altamente flexible y colaborativo, además de tener un modelo operativo claro. Este modelo operativo, que tiene en cuenta todo el ciclo de vida de cómo los datos son aprovisionados, utilizados.


     

     

    Tal vez te interese leer: 
    Big Data en Salud: ¿por qué la Gobernanza de Datos es imprescindible?

     

 

 

  • Los aumentos en variedad hacen la automatización un requisito: Esa creciente escala en cantidad y variedad demanda automatización. Los procesos manuales no pueden mantener el ritmo con el número de cambios en los datos y los nuevos datos que se introducen casi a diario. Los procesos manuales son demasiado lentos y engorrosos para hacer frente a los volúmenes de datos que ahora están disponibles. Mantener la información de gobierno sobre herramientas de escritorio, hojas de cálculo o incluso sitios de intercambio de documentos es demasiado lento y engorroso, y no brinda el acceso instantáneo a los datos que se necesita. Es necesario automatizar la administración de datos con una aplicación, de la misma manera que automatiza cualquier otra actividad comercial con una aplicación específica para ese propósito.

  • Estos datos son una necesidad operativa y están en uso constante: En última instancia, estos datos son el alma de la organización. La infraestructura y la plataforma en la que están alojados y procesados debe ser capaz de mantenerse al día con todos los cambios, así como con el volumen de solicitudes para utilizar y procesar los datos. Sin ese nivel de fiabilidad y seguridad, la organización no podrá utilizar sus datos y no podrá adquirir nuevas fuentes de datos e información con suficiente rapidez como para ser competitiva. Los datos se han convertido en un nivel clave en la competencia empresarial y en la calidad de los productos y servicios.cambiados y retirados, así como su calidad y fiabilidad, debe automatizarse para hacer frente a la creciente cantidad y variedad de datos.