El valor de la gestión de datos

Claves esenciales para comprender la arquitectura de Hadoop

Posted on Thu, Sep 18, 2014

arquitectura hadoop

Hadoop, como es sabido, es un sistema de código abierto basada en una arquitectura que trabaja con el nodo maestro y los nodos esclavos para la creación de un clúster, siempre a partir de un sólo nodo maestro y varios esclavos. Gracias a esta estructura, Hadoop consigue almacenar y analizar volúmenes de datos gigantescos, de cientos de pentabytes e incluso más.

Su núcleo nació como un conjunto de soluciones en el entorno Apache, bautizadas con el nombre de Hadoop, y su arquitectura maestro/esclavo utiliza el nodo maestro para almacenar el metadato asociado a sus nodos esclavos dentro del rack del que forma parte. Por otro lado, el maestro mantiene el estatus de sus nodos eslavos, mientras que éstos almacenan la información que aquel está procesando en un momento concreto.

Básicamente, se trata de una tecnología que almacena volúmenes enormes de información y permite implementar análisis predictivos a partir de datos estructurados y desestructurados, que se ejecutan en un clúster de Hadoop de una determinada cantidad de nodos.

Un rico y creciente ecosistema

La comunidad internacional opensource va perfeccionando el núcleo de Hadoop y al tiempo hace crecer su ecosistema con aportaciones constantes. Puesto que el original no cubre las necesidades, empiezan a aparecer funcionalidades, como ocurre con Spark, que satisface requerimientos de real time que un clúster de Hadoop tradicional no puede solventar sin su ayuda. De este modo, esa comunidad opensource se encarga de ir manteniendo, corrigiendo errores y aportando nuevos paquetes para conseguir nuevas funcionalidades. 

Por su parte, las distribuciones comerciales toman el opensource de Apache y le agregan nuevas funcionalidades que satisfagan los requerimientos del mundo empresarial, con el objetivo de adaptarlo, pues el software opensource tiene la ventaja de la gratuidad, pero en un entorno coporativo hacen falta otras funcionalidades.

 

Descárgate nuestra Guía sobre Big Data

Adaptar la arquitectura Hadoop

A la hora de diseñar un clúster hemos de responder a una serie de preguntas clave que permitan adaptar la arquitectura de Hadoop a las diferentes necesidades de cada caso concreto. Deberemos decidir con cuántos nodos vamos a comenzar en función de aspectos como la cantidad de datos con la que vamos a trabajar, dónde se encuentran, su naturaleza...

También será fundamental determinar qué quiero analizar, por dónde recortar para hacer factible el proceso sin que impida conseguir el objetivo, que no es otro que descubrir tendencias y, en fin, entender patrones que permitan extraer un valor estratégico.

La elección de la distribución Hadoop dependerá de lo que ésta nos ofrezca y de cómo se adapte a lo que se está buscando. La distribución libre de Hadoop suele utilizarse para realizar pruebas que, de resultar exitosas, suelen llevar a pensar en un caso de negocio con presupuesto que exige disponer de una distribución comercial.

Aún así, la versión opensource es una alternativa a las comerciales. Es cierto que no van a tener tantas aplicaciones corporativas y resultará más difícil de instalar y configurar, pues no dispondremos de asistente de instalación o configuración. Será más complejo poder implementar un clúster de Hadoop y también se carecerá de asistencia a la hora de implementarla y de corregir posibles errores.

El uso de la nube también puede servir de complemento para disponer de herramientas que diseñen con más efectividad los análisis, si bien éstos conviene realizarlos dentro del clúster. Un ejemplo podría ser el uso de herramientas de visualización que se ejecutarían en el clúster, sin necesidad de mover los datos al cloud. En general, este tipo de ayuda puede servir para analizar, validar resultados, realizar comparaciones o para poder implantar algún sistema, pongamos por caso.

 Fuente imagen: jscreationzs / FreeDigitalPhotos.net

 

Post relacionados:

 

hadoop y el bigdata

Topics: Big Data