El valor de la gestión de datos

Databricks certificará sofware de terceros para Spark Apache

Publicado el 1/04/14 4:02

Spark HadoopDatabricks, startup fundada por los creadores Apache Spark para su comercialización, se encargará de certificar la compatibilidad de software comercial diseñado para este motor de procesamiento de datos a gran escala y pronto anunciará cuáles son las primeras aplicaciones que cumplen los criterios.

Con este certificado, se pretende aumentar su popularidad, es decir, acelerar el desarrollo y adopción de Spark, la plataforma de computación de código abierto que se ejecuta en Hadoop, por lo que éste aumenta sus posibilidades de ser aún más eficaz. 

Uno de los principales problemas de Hadoop es la latencia de los tratamientos para algunos algoritmos cuando se apoya en MapReduce, por lo que la solución puede venir de la mano de Spark, otro framework de tipo MapReduce que también se ejecuta en Hadoop. Sus puntos fuertes son la facilidad de programación y una mayor rapidez de análisis debido a su capacidad de almacenar los datos en la memoria y en el disco. 

 

                                 Descárgate nuestra Guía sobre Big Data

 

 

Revolucionando Hadoop

El objetivo final de estos controles de desarrollo, sin embargo, va más allá de Hadoop. Se pretende revolucionar lo que las empresas puedan hacer con grandes volúmenes de datos desde dentro y fuera de Hadoop. Y, en cierto sentido, el avance ya no es una previsión. Es un hecho. Spark vuela cava vez más alto, está revolucionando Hadoop y apunta a las estrellas, es decir, a convertirse en un importante motor de procesamientos de datos de Big Data de funcionamiento autónomo. De seguir así, en un futuro no lejano podría acabar con la supremacía de Hadoop, ecosistema al cual pertenece. 

El futuro ya está llegando. Aunque el marco MapReduce tradicional sigue siendo tremendamente utilizado, Spark suma puntos como alternativa de código abierto más versátil, rápida y fácil que MapReduce en el marco de Hadoop. Actualmente, muchas organizaciones emplean Spark para realizar un procesamiento más sofisticado de sus datos de Hadoop, pero aún le queda camino por recorrer para desbancar a MapReduce o para complementarlo con el mismo nivel de aceptación. 

Pioneros en el programa de certificación

Los socios pioneros del programa de certificación son Adatao, Alpine Data Labas y Tresata, fabricantes de aplicaciones analíticas avanzadas. A ellos se prevé que se les sumen otros muchos desarrolladores que contribuirán a darle una mayor usabilidad a Spark para configurar la próxima generación de aplicaciones de manejo de grandes datos.

Ventajas para el usuario 

Con el certificado de software para Spark, Databriks no sólo establece un cierto orden en las colaboraciones mediante unos criterios mínimos de compatibilidad de las aplicaciones, sino que también busca hacer la vida más fácil a los usuarios finales.  Según la startup, el certificado beneficiará a las empresas usuarias al aumentar la compatibilidad y la inovación compartida gracias a la transparencia lograda con esta iniciativa. Y ello se traducirá en más aplicaciones diseñadas para trabajar y aprovechar las posibilidades de Spark con el progresivo aumento de aplicaciones certificadas, lo que supone un incentivo para mantener la compatibilidad con Apache Spark, evitando la bifurcación y fragmentación. 

Post relacionados:

HDFS y MapReduce, la base de un Hadoop robusto

Hadoop ¿sí o no? Las preguntas que te ayudarán a decidir 

Hadoop 1.0.3 api: viaje a la nube   

Enlace a guía gratuita sobre Big Data y Hadoop 

Créditos fotográficos: Apache Software Foundation

Temas: Big Data