El valor de la gestión de datos

El asombrosamente rico ecosistema de Hadoop

Posted on Sun, Jul 13, 2014

Ecosistema de Hadoop

Hadoop ha crecido hasta constituir una gran familia de soluciones para el almacenamiento, gestión, interacción y análisis de grandes datos, integradas en un rico ecosistema de código abierto creado por la comunidad de la Apache Software Foundation. Su crecimiento es imparable, sobre todo, gracias a la febril actividad de su incubadora, que actualmente desarrolla decenas de proyectos sin restriciones,  que pueden funcionar de forma independiente o llegar a superponerse en funcionalidad.

Las necesidades y posibilidades de mejora del sistema de archivos distribuido (HDFS) y su motor de procesamiento de tareas MapReduce, el corazón de Hadoop, han impulsado desarrollos de código abierto para los trabajos que corren en la plataforma, su auténtico núcleo, a cuyo alrededor orbita una gran colección de productos.

Algunos ofrecen limpieza de datos, un almacenamiento de datos más sofisticado, mayor rapidez (Spark), asignar recursos en las aplicaciones ejecutadas sobre Hadoop para lograr una ejecución simultánea (YARN) , en fin, cada uno aporta una o varias características que potencian su capacidad distintiva para gestionar cantidades masivas de datos estructurados y no estructurados.

La comunidad Hadoop está evolucionando rápidamente en el enriquecimiento del ecosistema de código abierto, y también lo hace su versión de pago, que ofrece servicios comerciales de esta open source, integrándola en soluciones a la medida del usuario, con apoyo logístico y realizando aportaciones o mejoras de SQL que amplían aún más las posibilidades.

 

Descárgate nuestra Guía sobre Big Data

 

El crecimiento exponencial del ecosistema de Hadoop

Hadoop resultó ser tan útil en el procesamiento y análisis de grandes datos que no tardó en revelarse como una revolucionaria solución a los probelmas de almacenar y trabajar con Big Data. Desde su lanzamiento como framework de software que sporta aplicaciones distribuidas, su crecimiento ha sido exponencial tanto en clave tecnológica como económica. Según Gartner, el mercado actual del ecosistema Hadoop tiene un valor de 77 millones de dólares y se espera alcance los 813 millones de dólares en 2016.

Actualmente, Hadoop tiene un ecosistema muy diverso que está en continuo crecimiento. A continuación, algunos de los proyectos más comunes, exceptuando HDFS y MapReduce, que conforman la arquitectura principal de Hadoop:

  • Ambari: facilita la gestión con una interfaz intuitiva y proporciona una API basada en REST para desarrolladores, librería de funciones a la que se accede a través de direcciones web o URLS .

  • HBase: base de datos de Hadoop, útil para escrituras y lecturas en tiempo real y acceso aleatorio de los datos.

  • Hive: sistema de Data Warehouse para la consulta de datos con un lenguaje llamado HiveQL, similar al SQL.

  • Sqoop: herramienta para estraer datos de sistemas de almacenamiento estructurado e importarlos para su posterior procesamiento.

  • Pig:  permite focalizar en el análisis de datos, sin tener que centrarse en la creación de programas. Desarrolado inicialmente por Yahoo.

  • ZooKeeper: servicio de coordinación de alto rendimiento con infraestructura centralizada que ofrece servicios como sincronización o naming, con una interfaz simple.

  • NoSQL: almacenes de datos que facilita la gestión y análsisis de datos no estructurados, y dispone de herramientas como DataStax como Monto DB.

  • Mahout: librería de software que construye bibliotecas escalables de aprendizaje automático y data minig.

  • Lucene: librería para buscar textos planos y encontrarlos mediante cualquier criterio de búsqueda.

  • Avro: sistema de serialización de datos para procesarlos y almacenarlos con el fin de leerlos fácilmente desde distintos lenguajes de programación.

  • Flume: sistema distribuido que  simplifica el proceso de recolectar los datos para poder almacenarlos en Hadoop, analizarlos, moviéndolos hasta un repositorio central.

  • Herramientas GIS: facilita el trabajo en clústers con mapas geográficos para su mejor comprensión a la hora de su ejecución en Hadoop.

  • Spark: sistema que procesa los datos a una velocidad superior a MapReduce en tiempo real y también puede implementarse de forma independiente. 

 
 

Post relacionados:

 

hadoop y el bigdata

Fuente imagen: tigger11th/ FreeDigitalPhotos.net

Topics: Big Data