El valor de la gestión de datos

Spark alza el vuelo en solitario

Publicado el 14/10/15 4:00

describe the image

 

 

 

 

Como es bien sabido, procesar grandes datos a un bajo coste suele ser un asunto encomendado a Hadoop, el conocido framework que permite almacenar, gestionar y analizar Big Data gracias a su núcleo, formado por un sistema de archivo distribuido HDFS y un procesamiento llevado a cabo gracias a MapReduce.

Eficiente y sin competencia en innumerables casos, pero no perfecto, en especial por su conocido problema de latencia, razón por la que se está utilizando cada vez más Apache Spark como alternativa completa, y no a modo de simple complemento para aportar velocidad a la plataforma del elefante amarillo.

 

 

Spark, la nueva estrella de Big Data

Rara es la mención sobre iniciativas de Big Data que no incluya alguna referencia a Hadoop, pero las cosas podrían cambiar antes de lo que imaginamos. Aunque el open-source Apache Hadoop no cesa de mejorar gracias a las constantes aportaciones de su gran comunidad de desarrolladores, crece su ecosistema y sus versiones ganan en estabilidad y facilidad de uso, también es cierto que cada vez más empresas prefieren otras alternativas de procesamiento de datos.

Así es, al menos, según una nueva encuesta de Databricks, empresa creada para comercializar el código abierto de Apache Spark, en la que participaron 842 empresas diferentes para concluir que Apache Spark es la nueva estrella de Big Data. De acuerdo con el estudio, los tiempos en los que su principal utilidad era empujar a un elefante con dificultades para correr son ya cosa del pasado. 

Ahora, siempre de acuerdo con el estudio, un número creciente de empresas utilizan Spark al margen de Hadoop. En cifras, mientras Windows ha experimentado una explosión de un 283 por ciento, su adopcióhn en Linux/UNIX lo hizo entre el 51 y el 74 por ciento.

Los ingenieros de datos encabezan el grupo que ha optado por esta solución, con un 41 por ciento de los usuarios, seguidos por los científicos de datos, que alcanzan un 22 por ciento, y los arquitectos, con un 17 por ciento.

De acuerdo con el trabajo, los usuarios eligieron Spark para obtener un mayor rendimiento (91 por ciento), por su facilidad de programación (77 por ciento), de puesta en marcha y despliegue (71 por ciento).

"El continuo crecimiento de Spark ha sido muy alentador, ya que las empresas van a utilizarlo para obtener valor de negocio real, y lo están haciendo en una amplia gama de entornos más allá de Hadoop," explica Matei Zaharia, creador de Apache Spark y jefe de tecnología de Databricks.

 

¿El relevo de Hadoop?

Desde su introducción en 2010, Spark se popularizó como parte del rico ecosistema de Hadoop y, desde entonces su uso no ha dejado de crecer. Ya en sus mismos inicios sus ventajas con respecto a la tecnología del elefante amarillo hicieron de esta plataforma de procesamiento de grandes datos un firme candidato a brillar con luz propia en un futuro próximo.

Incluso a convertirse en pieza clave de la próxima generación de tecnologías de Big Data, pues funciona de manera similar a Hadoop al tiempo que ofrece un gran rendimiento y, entre otros puntos fuertes, permite una ejecución en tiempo real.

Básicamente, su menor latencia obedece a un funcionamiento que almacena los datos en el caché en la memoria, y no en el disco, como hace Hadoop. Esta diferencia resulta decisiva para el uso eficaz de algunos algoritmos, que precisan de una mayor rapidez de ejecución si pretendemos que sean útiles. 

El uso de Spark como herramienta que funciona dentro de la plataforma del elefante amarillo ayuda a superar este problema, pero también puede funcionar en solitario. Su independencia del ecosistema de Hadoop ha llevado a que sean numerosas las empresas que ya aportan soluciones Big Data mediante esta tecnología. Sin embargo, actualmente Hadoop sigue siendo la tecnología de referencia en iniciativas de Big Data.

Fuente imagen: Spark project team, via Wikimedia Commons

 

Post relacionados:

New Call-to-action

Temas: Noticias