Enmascaramiento de Datos. ¿Qué es?¿Qué debo tener en cuenta?

Enmascaramiento de datos es el proceso mediante el cual se cambian ciertos elementos de los datos de un almacén de datos, cambiando su información pero consiguiendo que la estructura permanezca similar, de forma que la información sensible quede protegida. El enmascaramiento de datos garantiza que la información sensible del cliente no está disponible fuera del entorno de producción. Se trata de una técnica especialmente en situaciones como la formación de usuarios o pruebas de software.

El mercado de la seguridad de datos está lleno de terminología: enmascaramiento de datos, ofuscación de datos, anonimización de datos, encriptación de datos,... sólo por nombrar unos pocos. Con tantos términos diferentes alrededor de la seguridad y protección de los datos ¿cómo saber qué es qué y qué tenemos que utilizar para cada cosa? o mejor aún ¿cómo saber cuál es la mejor opción para las necesidades y requerimientos de seguridad de nuestra organización?

Existe abundancia de conocimientos disponibles hoy en día alrededor de la seguridad y la privacidad de la información. Todo el mundo parece ser experto en cómo una organización debe de estar protegida. Sin embargo, el problema subyacente todavía permanece. Con toda esta información, es difícil distinguir qué tecnología hay que utilizar en un escenario u otro.

Ofuscación de datos y anonimización son términos frecuentemente utilizados de forma intercambiable como sinónimos de enmascaramiento de datos. Incluso puedes encontrar también otros términos que se utilizan junto con el enmascaramiento de datos como son data scrubbing, de-identification, depersonalization, data scrambling, etc. y la lista sigue.

Pero centrémonos en el término enmascaramiento de datos.

1. Definición de Enmascaramiento de Datos

El enmascaramiento de datos es un método con el que podemos crear una versión que tiene una estructura similar a la de los datos originales pero que no es auténtica y que puede utilizarse para fines tales como pruebas de software y formación de usuarios. El propósito de esto es proteger los datos reales a la vez que se dispone de un sustituto funcional para ocasiones en las que los datos reales no son necesarios.

Aunque la mayoría de organizaciones tienen estrictos controles de seguridad para proteger los datos de producción, tanto en su lugar de almacenamiento como cuando se están utilizando en el negocio, algunas veces los mismos datos son utilizados para operaciones que no son del todo seguras. El problema a menudo se puede complicar si estas operaciones son subcontratadas a empresas externas donde la organización tiene poco control sobre lo que se hace allí con los datos. Para cumplir con los requisitos legales la mayoría de organizaciones no se sienten cómodas exponiendo innecesariamente sus datos reales.

En el enmascaramiento de datos, el formato de los datos sigue siendo el mismo. Sólo se cambian los valores. Los datos pueden ser cambiados de diferentes formas incluyendo la encriptación, la mezcla de caracteres, o la sustitución de palabras. Cualquier método que sea elegido, debe garantizar que los valores son modificados de forma que se imposibilite el descubrimiento del valor real o la posibilidad de hacer ingeniería inversa.

Enmascaramiento de datos no es sino oscurecer registros específicos dentro de la base de datos, asegurando que los datos sensibles son reemplazados con datos que parecen reales pero no lo son, de forma que pueden ser utilizados en entornos de pruebas con la seguridad de que las pruebas son válidas, mientras que se garantiza la protección de los datos confidenciales.

2. ¿Cuales son mis datos sensibles?

La definición de datos sensibles es bastante amplia y puede cambiar de un país a otro, de una organización a otra, o incluso de un individuo a otro. En algunos países, puedes encontrar que el número de la seguridad social se considera extremadamente sensible, al igual que todos los registros relacionados con información sobre la salud, sin embargo, en otros países algunos de estos datos no son sensibles.

A nivel mundial, se suele aceptar que datos como los de la tarjetas de crédito o de débito son datos confidenciales, explícitamente el número de la tarjeta y los detalles acerca del PIN y los códigos de seguridad.

Cada organización también tiene ciertos datos que clasifican como sensibles. Por ejemplo, los detalles sobre el salario de los empleados se pueden considerar datos sensibles. Del mismo modo, la propiedad intelectual o datos sobre investigaciones, también se consideran por su naturaleza datos sensibles. De todas formas esto puede cambiar de una organización a otra.

En general podríamos decir que los datos sensibles son aquellos que deben protegerse del acceso no autorizado para salvaguardar la privacidad o seguridad de un individuo a una organización.

Esta información confidencial se puede clasificar en tres tipos principales:

Información personal. La información personal identificable (PII), es información con la que se puede rastrear a un individuo y que si se divulga podría resultar en un perjuicio para esa persona. Esa información puede incluir datos biométricos, datos médicos, información financiera personalmente identificable, identificadores únicos tales como el pasaporte o los números de la Seguridad Social, etc. Las amenazas pueden incluir no sólo delitos tales como el robo de identidad sino que también se pueden utilizar para divulgar información personal de un individuo que prefiere que siga siendo privada. Esta información personal debería de formar parte del proceso de enmascaramiento de datos tanto cuanto se encuentran en tránsito como en reposo.

Información de negocio. Los datos sensibles de un negocio incluyen cualquier dato que suponga un riesgo para una compañía si son descubiertos por un competidor o por el público en general. Dicha información incluye secretos comerciales, planes de adquisición, datos financieros, información de proveedores e información sobre sus clientes, entre otras muchas posibilidades. Con la cada vez mayor cantidad de datos que son generados por los negocios, los métodos para proteger la información corporativa de accesos no autorizados se están volviendo parte integral de la seguridad de las compañías. Estos métodos incluyen gestión de metadatos, encriptación de datos y otros métodos de enmascaramiento de datos.

Información clasificada. La información clasificada suele pertenecer a un organismo de la Administración y se restringe de acuerdo a un nivel de sensibilidad definido. Por ejemplo, en algunos países esta información se puede clasificar como restringida, secreto confidencial, secreto o alto secreto. La información generalmente se clasifica para proteger su seguridad. Una vez el riesgo de daño ha pasado o ha disminuido, la información clasificada puede ser desclasificada y posiblemente hecha pública.

3. ¿Por qué necesito asegurarlos?

Las empresas comparten datos de sus aplicaciones de producción con otros usuarios para diferentes necesidades de negocio:

La mayoría de las organizaciones, si no todas, copian los datos de producción para entornos de pruebas y desarrollo, ya que quieren permitir a los administradores de los sistemas hacer pruebas de actualizaciones, parches y correcciones, con datos reales.

Las empresas, para mantenerse competitivas, requieren funcionalidades nuevas y mejoradas en sus aplicaciones de producción existentes. Como resultado, los desarrolladores de aplicaciones necesitan entornos que imiten lo mejor posible el entorno de producción real, para poder construir y probar esas nuevas funcionalidades asegurándose de que no son incompatibles con las funcionalidades que en estos momentos ya existen.

Las empresas de venta minorista comparten los datos de sus diferentes puntos de venta con investigadores de mercado para poder analizar los patrones de compra de sus clientes.

Las organizaciones farmacéuticas y de salud comparten datos de los pacientes sobre investigaciones médicas para evaluar la eficiencia de los tratamientos médicos y los ensayos clínicos.

Como resultado de todo lo anterior, en las organizaciones copian decenas de millones de datos de clientes y consumidores a entornos que no son los de producción, y no muchas compañías hacen algo para proteger estos datos, incluso cuando comparten los datos con personal externo u otras empresas.

Numerosos estudios de la Industria de la privacidad de datos han concluido que las compañías no hacen mucho por impedir que los datos sensibles puedan caer en manos de malhechores. Casi una de cada cuatro compañías dice que alguna vez ha perdido datos reales, o que se los han robado, y hasta un 50% dice que no tienen forma de saber si los datos que no están en producción pueden haber visto comprometidos alguna vez.

La protección de la información es vital en entornos que no son los de producción y se ha convertido en una de las tareas más críticas de los últimos años. El enmascaramiento de datos sensibles y valiosos reemplaza los datos reales con otros que son realistas y permite que puedan ser utilizados con seguridad en entornos de desarrollo, de pruebas, socios externos, empresas colaboradoras y otros fines diferentes a los de producción.

Ha habido casos donde los datos críticos de clientes, cuando se han perdido, han causado que una organización se enfrente a demandas y que tengan que gastar cientos de miles de euros o incluso millones para mitigar el problema. Se trata de un coste enorme para cualquier organización en el caso de que durante un evento desafortunado se pierdan datos críticos de clientes.

Un ejemplo son las normas PCI, las cuales son unos estándares de seguridad formulados para mejorar la seguridad de los datos de cuentas y tarjetas. Las empresas que fundaron esta organización son algunas de las más conocidas de ese sector, como American Express, MasterCard y Visa. Los estándares PCI tienen requisitos específicos que se ocupan de la seguridad de los datos. Algunos de esos requisitos dicen que los números de cuenta y números de tarjeta no se pueden utilizar en pruebas o entornos que no sean los de producción, sin embargo, la parte más difícil de esto es la implementación. ¿Cómo se puede desarrollar y probar una aplicación si no dispones de datos con los que probarla? La solución es el enmascaramiento de datos. Con estas técnicas, los equipos de pruebas de aplicaciones pueden simular pruebas sin utilizar realmente los datos más sensibles de las tarjetas de crédito de sus clientes.

4. Consideraciones para el Enmascaramiento de Datos

Los siguientes son algunas de las cosas que deberías tener en cuenta cuando diseñas o eliges una solución de enmascaramiento de datos sensibles:

No reversible. No debería ser posible recuperar los datos sensibles originales una vez se ha producido el proceso de enmascaramiento de datos. Si es posible invertir el proceso para recuperar los datos sensibles de nuevo, esto no cumple el propósito por el que se realiza en el enmascaramiento de datos.
Los datos enmascarados deberían parecerse a los datos de producción. Esto es uno de los puntos claves que necesitan ser considerados. Los datos deberían parecerse a los datos en vivo porque de otra forma las pruebas podrían no ser válidas. Por lo tanto, cuando una solución se diseña o se compra para enmascaramiento de datos sensibles, este punto es uno de los primeros que debes tener en cuenta.
Mantenimiento de la integridad referencial. Si el campo de datos que está siendo manipulado es una clave primaria, cualquier clave ajena que haga referencia a esta clave primaria también debe hacerlo con el dato enmascarado, de lo contrario la integridad referencial no se mantiene y habrá una clave ajena en alguna tabla que no se corresponde con ninguna clave primaria. Esto significa que si el id de un empleado es una clave primaria, y este campo se enmascara, entonces todas las instancias de ese campo deben también ser enmascarada de forma idéntica.
Repetible. El enmascaramiento de datos debe de ser un proceso repetible. Los datos de producción cambian frecuentemente, a veces en pocas horas. Si la solución de enmascaramiento de datos da soporte al enmascaramiento una sola vez, puede causar un problema, porque los nuevos registros añadidos pueden no ser enmascarados.
Integridad de la base de datos. Además de mantener la integridad referencial, la solución de enmascaramiento de datos debería también ser capaz de tener en cuenta los triggers, claves, índices, etc. Debería ser capaz de descubrir las relaciones entre los diferentes objetos de la base de datos de forma automática y debería ser capaz de mantener su estado en consecuencia.
Enmascaramiento de datos pre-empaquetados. Si estás comprando una solución de enmascaramiento de datos, entonces deberías también buscar que exista la ayuda de tener datos enmascarados pre-empaquetados para requisitos generales, como números de tarjetas de crédito, números de seguridad social, etc. La solución en cuestión debería tener ejemplos de datos preparados.

Ten en cuenta que esta no es una lista exhaustiva de características. Estas son sólo algunas características que creemos que deben ser consideradas. La mayoría de las soluciones comerciales de hoy en día tienen muchas más características y deberías hacer una evaluación exhaustiva antes de elegir tu solución de enmascaramiento de datos.