Apache Hadoop presenta Spark v1.0

Fuente imagen: renjith krishnan/ FreeDigitalPhotos.net

jul 19, 2014

Apache presenta Spark

Con el fin de reducir la latencia de las operaciones de procesamiento de grandes datos y aportar una serie de mejoras, la Apache Software Foundation (ASF) ha anunciado la disponibilidad de la primera versión de Spark, un software de análisis open source que acelera la ejecución de tareas de análisis en tiempo real sobre la plataforma de tratamiento de datos de Hadoop.

Conocido como "el cuchillo suizo de la armada Hadoop", el funcionamiento de esta nueva herramienta enriquece el ecosistema de este modelo de computación distribuida ofreciendo una interesante alternativa a MapReduce. Su sustitución significa ventajas al permitir el análisis en tiempo real en los clústers Hadoop y multiplicar por 100 la velocidad en memoria con respecto a MapReduce y hasta 10 veces más en disco.

En lugar de ejecutar los trabajos en modo lote, lo que hace imposible el análisis en tiempo real entre clústeres, Spark trabaja en micro-lotes de intervalos de cinco segundos o menos, lo que también proporciona más estabilidad que otras herramientas de tratamiento de tiempo real.

Análisis en tiempo real y facilidad de uso

Con esta versión 1.0 de Spark, Apache ofrece una interfaz de programación de aplicaciones estable bajo licencia Apache 2.0, como ocurre con todo el software salido de la febril actividad de la incubadora de la fundación. De forma complementaria, Databriks lo distribuye en su versión comercial.

Por su compatibilidad, además, los desarrolladores pueden utilizarlo para introducir en sus propias aplicaciones de código MapReduce, así como para la creación de otras escritas en Java, Scala o Python, tres de los lenguajes más frecuentes.

Poder analizar conjuntamente datos estructurados junto con otros desestructurados en una misma operación de análisis y permitir su uso en pequeños y grandes equipos o CPDs son otra de las características más destacadas de esta versión.

Además de ser compatible con fuentes de datos del sistema de ficheros HDFS (Hadoop's Distributed File System), lo es con algunos de sus componentes como YARN (Yet Anoter Resource Netotiator) o con la base de datos distribuidos HBase, una de las bses de datos de Hadoop.

A un uso orientado al análisis permanente de los datos en tiempo real se le suman otras funcionalidades que giran en torno a su bibilioteca de softwares, entre otros los tratamientos gráficos o los cálculos en profundidad que implican el aprendizaje automático (machine learnig), así como las consultas de datos interactivas.

El laboratorio AMP (Algorithms, Machines and People) de Berkeley inició la creación de Spark, y en junio de 2013, -hace ahora un año-, la comunidad de ASF adoptó el proyecto para darle el impulso definitivo. Actualmente, Spark está en uso en empresas de todo el mundo, como IBM, Cloudera Intel o Pivotal ya han integrado Spark en sus distribuciones Hadoop, por lo que se tienen grandes expectativas de que este nuevo software juegue un importante papel en el procesamiento de datos de Big Data.

Creada en 1999, la Fundación supervisa decenas de proyectos de código abierto y ha aportado miles de soluciones de software que se distribuyen bajo la licencia Apache, entre ellos el celebérrimo framework Apache HTTP Server, el sistema de procesamiento de datos distribuido más popular del mundo.

Post relacionados:

Fuente imagen: renjith krishnan/ FreeDigitalPhotos.net

Big Data

Apache Hadoop presenta Spark v1.0

Análisis en tiempo real y facilidad de uso

Artículos relacionados

Mejora tus ventas en retail: estrategias para calidad de datos

Seguridad informática en las empresas: data loss vs data leakage

Market Intelligence: ¿cómo transformar datos en conocimiento útil?

Apache Hadoop presenta Spark v1.0

Análisis en tiempo real y facilidad de uso

Artículos relacionados

Mejora tus ventas en retail: estrategias para calidad de datos

Seguridad informática en las empresas: data loss vs data leakage

Market Intelligence: ¿cómo transformar datos en conocimiento útil?

Subscríbete a nuestro blog y recibe las últimas actualizaciones sobre gestión de datos.