El valor de la gestión de datos

Ventajas prácticas de la arquitectura de Hadoop

Publicado el 30/10/14 4:00

ventajas prácticas hadoop

La arquitectura de Hadoop basada en el sistema de archivos distribuidos mediante el nodo  máster y múltiples nodos slave (maestro/esclavo) resulta claramente ventajosa para procesar grandes cantidades de datos. Gracias a su estructura distribuida HDFS (Hadoop Data File System) es capaz de almacenarlos y tratarlos de un modo eficiente, pudiendo procesar con rapidez ingentes cantidades de información, lo que convierte a este sistema de código abierto en una heramienta idónea para llevar a cabo análisis en clave de Big Data.

Su arquitectura basada en el procesamiento y almacenamiento distribuido hacen de él una buena solución para almacenar y procesar el flujo continuo de datos, frente a los que las tradicionales bases de datos relacionales (RDBMS) poco pueden hacer. Sin embargo, lejos de ser una sustitución de éstos, se revelan como un valioso complemento.

En la práctica, puede afirmarse que Hadoop reúne todos los requisitos para dar respuesta a necesidades de procesamiento de datos que se almacenan diariamente con vistas a realizar consultas, análisis y, en fin, con el objetivo último de extraer valor estratégico.

La escalabilidad, alta disponibilidad y buen funcionamiento del sistema, -incluso cuando falla el servidor-, tres de sus características esenciales,  derivan de su particular arquitectura, convirtiéndolo en un sistema de tratamiento y almacenamiento de datos muy flexible, rápido y robusto. Su funcionamiento, en suma, se acerca bastante al ideal de consistencia, disponibilidad y tolerancia a fallos, conocido como teorema CAP (por sus siglas en inglés) del profesor Eric A. Brever, proporcionando ventajas como las siguientes:

  • Hadoop almacena y analiza volúmenes de datos gigantescos, de petabytes (un millón de gigabytes) a un menor costo, pues su arquitectura permite funcionar en clúster, dotándolo de sencillez y flexibilidad a la hora de añadir un nodo.

  • Rapidez: la HDFS hace posible analizar o hacer consultas en cuestión de minutos u horas, pero no en tiempo real.

  • Trabaja con datos heterogéneos, tanto datos estructurados como no estructurados, posibilitando analizarlos e incluso cruzar bases de datos.

  • Robustez y fiabilidad: Map Reduce de Hadoop hace posible que el buen funcionamiento no se altere por posibles fallos ante una posible caída de nodos.

Descárgate nuestra Guía sobre Big Data

El clúster de Hadoop: una arquitectura adaptable a un bajo coste

Puesto que Hadoop es una tecnología que almacena volúmenes enormes de información y permite implementar análisis predictivos a partir de datos masivos, su ejecución en un clúster de una determinada cantidad de nodos convierte a este sistema en un software adaptable a las distintas necesidades.

A la hora de valorar las ventajas de las diferentes distribuciones, libres o comerciales, por lo tanto, habremos de determinar nuestros objetivos. En un principio, la distribución libre suele utilizarse para realizar pruebas experimentales que, de dar los resultados esperados, luego suelen llevar a adquirir una distribución comercial por simple cuestión de funcionalidad en entornos corporativos.

Aunque no puede negarse que la versión opensource tiene la gran ventaja de su gratuidad, también es cierto que resultará difícil de instalar y configurar, pues carece de asistente de instalación o configuración y también de asistencia técnica a la hora de corregir posibles errores. Por contra, los desarrollos a la medida requieren de una inversión, si bien el presupuesto necesario es infinitamente más accesible que el que representaban las alternativas anteriores.

La ventaja del rico ecosistema de Hadoop

Sin embargo, Hadoop es mucho más que su núcleo, que nació como un exitoso conjunto de soluciones en el entorno Apache, de código abierto, para encontrar respuestas a la necesidad de procesar datos de distintas fuentes y tipos.

A pesar de todas estas ventajas, lógicamente, Hadoop tiene puntos débiles, y es gracias a la comunidad internacional opensource como va perfeccionando el núcleo, y también su ecosistema. Son innumerables las funcionalidades que intentan ofrecer prestaciones más completas en combinación con Hadoop, como ocurre con Spark, un framework de tipo Map Reduce (data processing) que satisface los requerimientos de tiempo real, imposibles con un clúster Hadoop.

Gracias a esta complementariedad se consigue una nueva forma de arquitectura de datos, que combina las necesidades de archivo por lotes o batch, -para cuyo procesamiento fue diseñado Hadoop inicialmente-, con el análisis en tiempo real. A efectos prácticos, esa vinculación supone ventajas a varios niveles, impulsando la cultura de datos a nivel corporativo, y facilitando al tiempo la implementación y el mantenimiento.

Fuente imagen: renjith krishnan / FreeDigitalPhotos.net

 

Post relacionados:

 

Enlace a guía gratuita sobre Big Data y Hadoop

Temas: Big Data