La protección de datos de empresas en el marco de GDPR y Big Data

Con la gran cantidad de datos personales que se utilizan para el análisis de big data es esencial tener una protección de datos de empresas compatible con GDPR

sep 5, 2017

Si bien las empresas están continuamente buscando nuevas oportunidades para conseguir ventajas de los datos que provienen de big data, el Reglamento General de Protección de Datos de la Unión Europea (GPDR) que entra en vigor en 2018, impone nuevas obligaciones a tener en cuenta en la protección de datos de empresas.

Esta nueva ley modifica la forma en que las organizaciones interactúan con los datos personales y por lo tanto afecta también a cómo se analizan. Sin embargo, lo que puede parecer un problema podría suponer una oportunidad para que las empresas cambien la forma en que abordan sus capacidades de gobernabilidad.

El big data complica el proceso de mantener el cumplimiento de GPDR así como otras normas de protección de datos de empresas. El volumen de datos es enorme y son transformados en diferentes formas y son usados de diferentes maneras. Y el GPDR se debe aplicar a todos los datos, ya sean proporcionados voluntariamente o recopilados por sistemas automatizados. Esto incluye datos personales almacenados y utilizados en data lakes y plataformas de big data.

La gestión de todos estos datos puede parecer una tarea insalvable. Sin embargo, con un plan de gobierno de datos integral, las organizaciones pueden hacer posible que los datos sean seguros y confiables e impulsar procesos de análisis más rápidos y colaborativos.

Las 4 claves de la gobernanza de datos en GDPR

Para gobernar los datos de forma efectiva y cumplir con GDPR es necesaria una combinación de personas, procesos y herramientas que se entrelazan a través de cuatro aspectos clave:

1. Descubrir

El proceso de descubrimiento es fundamental para identificar todas las características de los datos privados que deben ser gestionadas en conformidad con GDPR. Esto requiere una exploración extensiva de los datos para entender si se ha dado el consentimiento para usar los datos.

El proceso de exploración de datos es mucho más amplio que la simple identificación de datos personales privados. También incluye identificar:

Cómo son o serán utilizados. Viendo como los datos son transformados, qué procesos utilizan los datos o sus derivados y qué acciones son tomadas debido a los datos.

Si el consentimiento está aceptado. Determinando si la persona dió su consentimiento para utilizar los datos y de qué manera permitió el uso de los datos.

De donde vinieron. Haciendo un seguimiento de los datos hacia atrás hasta llegar a sus fuentes y cómo fueron movidos a diferentes sistemas y diferentes formas dentro de la organización.

La gobernanza no desempeña un papel muy fuerte en esta etapa, pero el descubrimiento de big data sí lo hace. Los analistas requieren herramientas de descubrimiento de datos avanzadas y fáciles de usar para evaluar el estado de los datos y determinar dónde aplicar permisos que permitan la protección de datos de empresas. Un proceso de trazabilidad de los datos también proporcionará información valiosa sobre el origen de los datos y cómo se transformaron.

2. Asegurar y gobernar

Una vez que los datos personales privados se catalogan, clasifican y dividen, pueden entonces asegurarse y gobernarse. Esto requerirá la aplicación de diferentes políticas a los datos en diversas formas y etapas.

Asegurar y gobernar los datos requiere una serie de capacidades críticas aplicadas según sea necesario, incluyendo:

Encriptación y enmascaramiento. Los datos deben estar completamente encriptados tanto en reposo como mientras se transfieren, y algunos campos deben ser ofuscados para que los analistas no vean los datos durante el análisis.

Aplicación de políticas adecuadas. Se necesitarán diversas políticas para determinar qué datos se pueden ver por quién y cómo se utilizan a medida que se transforman durante del proceso analítico.

Métodos flexibles de organización. Para separar datos personales, datos intermedios y resultados para poder aplicar fácilmente reglas de seguridad y control de acceso, se necesita una organización flexible.

Catalogación exhaustiva. El catálogo de información sobre datos privados en plataformas analíticas deberá integrarse en otros sistemas de control y metadatos de TI, donde se pueda gestionar una visión más completa de todos los datos.

Cubrir todo el ciclo de vida de la información. Los datos deben gobernarse a lo largo de todo su ciclo de vida, que no sólo incluye de dónde proviene sino también cómo se transformaron y dónde se utilizaron.

3. Supervisar y administrar

La monitorización y gestión de los pipelines analíticos que involucran datos de clientes privados pueden convertirse rápidamente en algo muy complejo. Los datos de los clientes son utilizados de muchas maneras diferentes (up-sell, cross-sell, retención, engagement y más), y eso puede provocar que perdamos el control tanto de los datos como de la forma en que se utilizan perjudicando de esta forma la protección de datos de empresas.

Para obtener una vista completa de cómo se usan los datos de los clientes será necesario:

Seguimiento de datos. Ser capaz de rastrear tanto los modelos analíticos y como los datos resultantes, no simplemente datos.

Relaciones de principio a fin. Capacidad para rastrear toda la cadena de datos, análisis y resultados, explicar cada operación e identificar los cambios a lo largo del tiempo.

Monitorización en profundidad. Ser capaz de monitorizar todos los aspectos del proceso analítico incluyendo acceso a datos, ejecución, uso de los datos y nivel de seguridad aplicado.

Políticas de administración de datos. Establecer reglas que controlen cómo se administran y conservan los datos en el entorno analítico para reducir el riesgo de acceso ilegal.

Actualizaciones continuas. Capacidad para actualizar los datos de los clientes y cómo se utilizan en los procesos analíticos basados en nuevas preferencias personales y datos.

4. Cumplir

Cumplir con las regulaciones de GDPR requiere probar que tenemos los controles y los procesos apropiados para poder tener una protección de datos de empresas adecuada que permita utilizarlos correctamente de acuerdo con los consentimientos de cada individuo. El volumen de datos y los análisis realizados sobre ellos son cada vez mayores y eso hace que los procesos manuales que informan sobre el cumplimiento de GDPR se conviertan en una gran pérdida de recursos para un personal de TI que ya está bastante saturado.

Las organizaciones que mejor lo están haciendo están consolidando información sobre los procesos GDPR en repositorios centrales, soluciones de catalogación o sistemas de control de TI. Esto permite una visión en toda la empresa de todos los datos personales, cómo se utilizan y cómo se gestionan. Se simplifican y agilizan los procesos de auditoría e informes para GDPR.

Protección de datos de empresas en plataformas Hadoop

Para conseguir una protección de datos de empresas en plataformas Hadoop, hay cinco consideraciones clave que deben tenerse en cuenta:

Replicación no es lo mismo que copia de seguridad puntual. Aunque el sistema de archivos Hadoop ofrece replicación nativa, carece de capacidades de copia de seguridad y recuperación puntual. La replicación proporciona una alta disponibilidad, pero no una protección contra errores lógicos o humanos que pueden dar como resultado una pérdida de datos y, en última instancia, la imposibilidad de cumplir con los estándares de cumplimiento y gobernanza.
La pérdida de datos sigue existiendo. Algunos estudios sugieren que más del 70 por ciento de las pérdidas de datos son debidas a errores humanos. Los sistemas de archivos como HDFS no ofrecen protección contra dicha eliminación accidental de datos. Aún es necesaria la copia de seguridad y la recuperación del sistema de archivos y también a un nivel mucho más granular (copias de seguridad de nivel de directorio) y una escala de implementación mayor, cientos de nodos y petabytes de datos del sistema de archivos.
Reconstruir datos es demasiado costoso. En teoría, para almacenes de datos analíticos como Hadoop, los datos pueden reconstruirse a partir de la fuente de datos respectiva, pero se tarda mucho tiempo y es ineficaz operativamente. Las herramientas de transformación de datos y las secuencias de comandos que se utilizaron inicialmente pueden no estar disponibles. También es posible que ya no tengamos la experiencia. Además, los datos pueden perderse en la fuente, lo que da como resultado no tener opciones alternativas. En la mayoría de los escenarios, la reconstrucción puede llevarnos semanas o meses y resultar en un tiempo de inactividad de la aplicación más largo que el aceptable.
El tiempo de inactividad de la aplicación debe minimizarse. En la actualidad varias aplicaciones empresariales incorporan analítica y microservicios de machine learning que aprovechan los datos almacenados en HDFS. Cualquier pérdida de datos puede hacer que tales aplicaciones se limiten y tengan como resultado un impacto negativo en el negocio. Es necesaria una recuperación granular a nivel de archivo para minimizar el tiempo de inactividad de la aplicación.
Los data lakes de Hadoop pueden crecer rápidamente hasta petabytes. Es financieramente prudente archivar los datos de los clústeres de Hadoop en un sistema de almacenamiento de objetos robusto independiente que sea más rentable en la escala de petabytes.

Para el éxito de GDPR es necesario asegurar los datos

Los datos son clave para todas los interesados tanto de dentro como de fuera de la empresa. Explotados en profundidad, los datos llevan a las empresas a nuevas oportunidades de negocio, así como a conseguir ventajas competitivas. Simultáneamente, los datos son una bomba de tiempo que puede explotar si no está adecuadamente asegurada, protegida, gobernada y controlada.

Con la gran cantidad de datos personales que se utilizan para el análisis de big data, es esencial seleccionar una plataforma que proporcione la funcionalidad más completa posible de forma que se pueda obtener una protección de datos de empresas compatible con GDPR mientras se sigue reduciendo la carga administrativa necesaria para administrar los procesos de cumplimiento.

Data Security Big Data

La protección de datos de empresas en el marco de GDPR y Big Data

Las 4 claves de la gobernanza de datos en GDPR

1. Descubrir

2. Asegurar y gobernar

3. Supervisar y administrar

4. Cumplir

Protección de datos de empresas en plataformas Hadoop

Para el éxito de GDPR es necesario asegurar los datos

Artículos relacionados

Mejora tus ventas en retail: estrategias para calidad de datos

Seguridad informática en las empresas: data loss vs data leakage

Market Intelligence: ¿cómo transformar datos en conocimiento útil?

La protección de datos de empresas en el marco de GDPR y Big Data

Las 4 claves de la gobernanza de datos en GDPR

1. Descubrir

2. Asegurar y gobernar

3. Supervisar y administrar

4. Cumplir

Protección de datos de empresas en plataformas Hadoop

Para el éxito de GDPR es necesario asegurar los datos

Artículos relacionados

Mejora tus ventas en retail: estrategias para calidad de datos

Seguridad informática en las empresas: data loss vs data leakage

Market Intelligence: ¿cómo transformar datos en conocimiento útil?

Subscríbete a nuestro blog y recibe las últimas actualizaciones sobre gestión de datos.