El valor de la gestión de datos

¿Hadoop es Java?

Posted on Sun, Aug 17, 2014

Hadoop Java

 

Las nuevas tecnologías que hacen posible el Big Data tienen en su mismo epicentro a Hadoop, una revolucionaria plataforma escrita en lenguaje Java que permite el procesamiento distribuido de información a través de modelos de programación simples, y sin cuya existencia el fenómeno de los grandes datos no hubiera cobrado las dimensiones actuales.

El idioma informático desarrollado originalmente por James Gosling es, por lo tanto, el lenguaje nativo de Hadoop si consideramos el término en sentido estricto, como una implementación de código abierto formado por la infraestructura de programación MapReduce, cuyos trabajos se pueden escribir en distintos lenguajes, y el sistema de archivos distribuido (Hadoop Distributed Files System o HDFS), este sí, escrito en Java para el framework Hadoop.

Por lo tanto, una primera respuesta a la pregunta de si Hadoop es Java nos nos lleva a la conclusión de que si bien el HDFS sí se crea con Java, los trabajos MapReduce se pueden escribir en varios idiomas, incluyendo Java (Hadoop Map Reduce, su API en Java).

En la práctica, por otra parte, ello se traduce en una mayor flexibilidad de trabajo, pues los desarrolladores no están limitados a Java para sus trabajos MapReduce. Es decir, puede codificarse en Java, pero también en SQL, Python, Perl, Bash, C++ o en cualquier otro lenguaje gracias a una utilidad llamada Hadoop Streaming.

 

Descárgate nuestra Guía sobre Big Data

El variado ecosistema de Hadoop

Al margen de que Hadoop sea un framework con entidad propia, su tremendo éxito ha propiciado que hoy en día haya ligados a él una míriada de proyectos (HBase, Zookeeper, Hive, Pig, Avro, Flume, Oozie, Whirr, Mahout, Fuse, Spark... y un largo etcétera que no deja de crecer) que pueden considerarse una prolongación del mismo, pues son herramientas concebidas para mejorar el procesamiento de los grandes ficheros de datos.

De hecho, gracias a su implementación Hadoop sigue siendo la tecnología líder opensource dentro del universo de Big Data, entendido por doble partida, tanto como el proyecto Apache Hadoop, formado por sus dos componentes centrales, como sumándoles la constelación de proyectos que lo complementan.

El puzzle de Hadoop aumenta su número de piezas de forma imparable, y aunque todas encajan a la perfección, el resultado no deja de ser sino un conjunto heterogéneo de satélites que giran alrededor de un sol amarillo que, curiosamente, tiene forma de elefante.

Sus lenguajes son también muy diversos, tanto por su programación como porque, en algunos casos, facilita codificar en otros lenguajes, como hace el mencionado Hadoop Streaming, y también Hive and Hue, que permite escribir en SQL y hacer que se convierta en un trabajo de Map Reduce.

Pig, por ejemplo, es un entorno de programación de alto nivel para codificar MapReduce que trabaja con el lenguaje Pig Latin. O Lucene, una herramienta que se encarga de la indexación de grandes bloques de texto no estructurado, escrita en Java, mientras Hive, pongamos por caso, es un almacén de datos construido sobre Hadoop que trabaja con un lenguaje smilar a SQL.

Dentro del ecosistema Hadoop, por lo tanto, es posible codificar en distintos lenguajes y, aunque en él conviven diferentes elementos diseñados en lenguajes de codificacion diversos, todos ellos  persiguen un mismo objetivo: un eficiente análisis de los grandes datos.

 

Post relacionados:

 

hadoop y el bigdata

Fuente imagen: Idea go / FreeDigitalPhotos.net

Topics: Big Data