Spark ¿complemento o competidor de Hadoop?

Fuente imagen: cooldesign / FreeDigitalPhotos.net


Hadoop Spark

Como es sabido, Hadoop es una tecnología innovadora opensource que ofrece capacidades avanzadas excepcionales para almacenar y procesar grandes cantidades de datos a un bajo costo. Las capacidades analíticas que ofrece, sin embargo, encuentran problemas de distinto tipo, que intentan subsanarse mediante la aparición de una míriada de complementos que conforman su ecosistema, entre ellos Spark, un framework que se ejecuta en Hadoop.

Si bien el desarrollo de Hadoop y de su ecosistema se coordinan desde la Apache Foundation, de código abierto, por otra parte, de forma paralela muchos de sus complementos pueden operar con independencia sin ningún problema, como ocurre con Spark.

Diseñado como motor de procesamiento de datos a gran escala, solventa con eficacia los problemas de latencia de Hadoop, uno de sus puntos débiles. Por su parte, los puntos fuertes de Spark son la facilidad de programación y rapidez de análisis, fundamentalmente por su capacidad de almacenar los datos en la memoria y en el disco, concretamente hasta 100 veces más rápido que Hadoop en memoria o 10 veces si es en disco.

 

Descárgate nuestra Guía sobre Big Data

 

El futuro de Spark: ¿dentro o fuera de la arquitectura Hadoop?

El futuro de Spark está orientándose claramente desde Databricks, la startup fundada por los creadores de Apache Spark para su comercialización. Su objetivo final es trascender la plataforma del elefante amarillo e impulsar un ecosistema propio para Spark, entre otras iniciativas, mediante la certificación de la compatibilidad de software comercial para acelerar su desarrollo y popularidad.

La arquitectura de Hadoop, sin embargo, sigue adoleciendo de una lentitud que se acusa especialmente cuando se requiere rapidez de procesamiento para que la información tenga utilidad. Su implementación con Spark, por lo tanto, resulta necesaria para poder dar respuesta a las crecientes necesidades de análisis en tiempo real.

Spark, por su parte, está empezando a levantar el vuelo en solitario como plataforma de código abierto para procesar grandes datos, más versátil, rápida y sencilla que MapReduce en el entorno de Hadoop. De hecho, son muchas las organizaciones que están empleándolo como alternativa, si bien su nivel de aceptación todavía está muy lejos de Hadoop.

Actualmente, Databricks está promocionando el programa de certificación, que contará con un número creciente de desarrolladores a partir de los socios pioneros del programa, como son Adatao, Alpine Data Labas y Tresata. Será esa mayor colaboración será la que dará alas a Spark a través de futuras aplicaciones de manejo de grandes datos con el objetivo de mejorar su usabilidad y eficacia.

Así pues, puesto que pueden funcionar por separado, Hadoop y Spark están llamados a acabar independizándose. Todo apunta a que ello sea así, al menos si seguimos la lógica natural en función de las circunstancias mencionadas.

Actualmente, lo más habitual es utilizar Spark para mejorar las prestaciones de un clúster Hadoop, pero en un futuro lo normal podría ser hacerlo por separado. Sin embargo, en cuesitón de tecnologías de vanguardia, intentar anticipar el futuro es muy arriesgado, simple y llanamente porque pueden entrar en el escenario elementos que ahora ni siquiera sospechamos.

 

Post relacionados:

 


Fuente imagen: cooldesign / FreeDigitalPhotos.net

 

 

 

 

 

 

 

 

 

 

 

 

Artículos relacionados

Subscríbete a nuestro blog y recibe las últimas actualizaciones sobre gestión de datos.

Descubre contenido nuevo todos los días para profundizar la transformación digital en tu organización.