El almacenamiento interno compartido en arquitecturas Hadoop

Escrito por Redacción PowerData | 6/03/15 8:00

Las arquitecturas Hadoop son la base de un proyecto de software open source que soporta aplicaciones distribuidas, diseñado para resultar confiable (no se pierden datos) y escalable, capaz de almacenar grandes cantidades de datos, por lo que es de gran utilidad para afrontar los desafíos de Big Data. El almacenamiento interno compartido es sinónimo de resultados satisfactorios a un bajo coste.

Créditos fotográficos: Anna_leni

Apache Hadoop se enfrenta con éxito a complejidades de alto volumen, velocidad y variedad de los datos, permitiendo cargar, analizar y almacenar petabytes de información mediante el análisis por lotes y el procesamiento distribuido.

Para introducir la cuestión del almacenamiento interno compartido en arquitecturas Hadoop, hemos de centrarnos en el núcleo o corazón mismo de este framework diseñado para operar en clave de Big Data. Su composición consta de:

Una implementación Map/Reduce o capa de procesamiento: Map/Reduce procesa grandes cantidades de información de un modo sencillo para el usuario, gracias al almacenamiento interno compartido, muy fácil de utilizar, ya que la complejidad está oculta a los usuarios.
Una capa de almacenamiento HDFS (Hadoop Distribued File System): es un sistema de archivos distribuido escrito en Java creado por Doug Cutting, que constituye la capa de almacenamiento en un clúster Hadoop.

Almacenamiento interno compartido, transparente al usuario

El modelo de programación paralela de datos de Map/Reduce, en efecto, está diseñado de tal modo que la complejidad de la distribución y tolerancia a fallos quedan escondidas. Ese proceso en paralelo que no vemos, transparente con Hadoop, dota al sistema de una gran accesibilidad y facilidad de uso.

La tecnología de procesamiento paralelo que Map/Reduce sigue la máxima del "divide y vencerás". Su lógica de procesamiento se desdobla en las funciones map y reduce. Por un lado, mapea el problema en partes más pequeñas, dividiendo los datos entre los nodos, con lo que cada máquina procesa su parte y, por otro, la fase de Reduce suma los valores parciales de cada clave para obtener el resultado final.

Créditos fotográficos: anankkml / FreeDigitalPhotos.net

Así, todas las máquinas procesan la información de forma simultánea, mediante la tecnología de procesamiento en paralelo que se almacena en cada uno de los equipos en la fase Map, hasta que el componente Reduce consolide el resultado, junto con esa otra parte de la información que también guardan para dotar al sistema de confiabilidad.

Con Hadoop, todo ese proceso en paralelo se ejecuta de forma ajena al usuario, pues éste sólo ha de preocuparse por grabar el fichero en el clúster de Hadoop. Será, por lo tanto, gracias al procesamiento en paralelo, a ese almacenamiento interno compartido que Hadoop se encarga de hacer automáticamente, como es posible procesar grandes volúmenes de datos con una mayor rapidez.

La rapidez, tolerancia a fallos (cada máquina procesa una parte y tiene información de otra), facilidad de uso, su rico ecosistema y, por supuesto, un bajo coste, han extendido tremendamente el uso de las arquitecturas Hadoop, democratizando el tratamiento de los grandes datos para obtener información valiosa.

¿Disfrutas de las ventajas del almacenamiento interno compartido en tu negocio?

Post relacionados:

Ver post completo