El valor de la gestión de datos

Seguridad en un clúster Hadoop para proteger información sensible

Posted on Tue, Feb 10, 2015

 hadoop cluster

Hadoop ha convertido en realidad algo que parecía imposible: un almacenamiento de enormes cantidades de datos a bajo costo, además de permitir su análisis, escalabilidad, ser un sistema flexible, rápido y tolerante a fallos. Pero no todo son ventajas, lógicamente, y entre sus importantes inconvenientes encontramos un talón de Aquiles en una cuestión tan peliagua como es la seguridad, un aspecto intolerable para cualquier organización.

En parte, una de las razones por las que las empresas miran al Big Data con un cierto recelo es por la dificultad que supone el manejo de Hadoop, la tecnología clave para extraer valor de los grandes datos. En este mismo sentido, la gestión de su seguridad puede provocar sensación de incertidumbre, si bien los problemas son controlables tanto en la versión opensource como en las distribuciones comerciales.

De este modo, si por un lado tanto la inteligencia empresarial como las aplicaciones de negocio pueden beneficiarse tremendamente del procesamiento de grandes datos, por otro la mejora de la seguridad hará que todavía sean mayores las expectativas de crecimiento, al tiempo que animará a su implantación.

Descárgate nuestra Guía sobre Big Data

La seguridad, un punto débil de Hadoop

Como solución de Big Data, Hadoop está mejorando gracias a las constantes aportaciones de la comunidad internacional de desarrolladores que hace posible este proyecto de código abierto, y en buena parte también gracias a su cada vez más rico ecosistema, al tiempo que está ofreciendo nuevas funciones de seguridad de datos en sus versiones comerciales.

Por un lado, como sistema de computación distribuida, la distribución opensource de Hadoop representa un desafío para el control de la seguridad, y su administración complejidad. Esta limitación de su versión opensource, sin embargo, puede solucionarse recurriendo a soluciones propias, es decir, a opciones externas que habremos de buscar. 

En efecto, Hadoop es un proyecto libre supervisado por Apache Software Foundation que tuvo su origen en dos publicaciones de Google Inc. hace ya más de una década, pero que actualmente, a pesar de su gran desarrollo y meterórico éxito para el análisis de los grandes datos, sigue sin dar respuestas a la seguridad en su versión opensource.

Por otra parte, las versiones comerciales sí solucionan esta debilidad y ofrecen un producto completo que incluye opciones de seguridad basadas en el esquema que explicamos en el siguiente epígrafe. No podía ser de otra manera, puesto que sus clientes forman parte del entorno corporativo, donde cualquier implementación ha de tener unos estándares mínimos de seguridad.

Doble seguridad en el clúster de Hadoop

La seguridad que precisa un clúster Hadoop para proteger información sensible será mucho más fácil de resolver si contamos con una distribución comercial que atienda a una doble seguridad, tanto la relacionada con el acceso por parte de los usuarios como en lo que se refiere a la seguridad en el viaje de la información:

  1. Seguridad en el acceso: Se establecen unos grupos de privilegios establecidos en función de los diferentes roles para autenticar quiénes ingresan en el clúster. Ésta puede utilizar la autenticación Kerberos o de otro tipo, y está orientada al acceso por parte de los usuarios, así como a los privilegios concedidos para un acceso más o menos restringido.

  2. Comunicaciones encriptadas: Se trata de lograr comunicaciones seguras para que la información viaje segura a través de la red de modo encriptado. También existen diferentes niveles en encriptación, que podemos elegir al configurarlo, cuando la herramienta genera su propia clave destinada a encriptar las comunicaciones, ya que rara vez la genera un tercero.

Fuente imagen: Salvatore Vuono / FreeDigitalPhotos.net

 

Post relacionados:

hadoop y el bigdata

Topics: Big Data