El valor de la gestión de datos

Respuestas a preguntas frecuentes sobre Hadoop

Posted on Sun, Aug 30, 2015

 hadoop questions and answersLas preguntas que suelen hacerse los no iniciados sobre Hadoop, el popular framework del elefante amarillo, versan sobre cuestiones muy distintas, pero todas ellas suscitadas por el lógico desconocimiento que suele acompañar a las innovaciones cuyo ámbito trasciende el meramente tecnológico.

En este post vamos a abordar algunas de las preguntas más frecuentes sobre Hadoop, una de las tecnologías faro utilizadas profusamente en la actualidad para trabajar con grandes datos en el entorno de Big Data. Son respuestas muy básicas a preguntas no menos elementales, pero que se hacen necesarias para establecer las coordenadas de su definición y, en suma, con el fin de hacer luz tanto sobre el concepto como acerca de la utilidad de Hadoop.

 

¿Qué es Hadoop, y para qué sirve?

Apoyándonos en la definición de la web de Apache Hadoop, podemos definir Hadoop como una tecnología revolucionaria capaz de ofrecer una solución a bajo coste, hasta ahora inédita, para el almacenamiento y procesamiento de Big Data. Según reza la descripción facilitada en el site, se trata de "una plataforma de software que permite el desarrollo y ejecución de aplicaciones que procesan ingentes cantidades de datos".

Es decir, no se trata de una herramienta ni de un programa, sino de un marco de trabajo o framework de código abierto que permite desarrollar aplicaciones de procesamiento paralelo utilizando como componentes básicos HDPFS, un sistema de archivo distribuido capaz de distribuir la información a distintos dispositivos, y MapReduce, el framework propiamente dicho.

MapReduce, por su parte, hace posible ejecutar en un clúster de Hadoop programas escritos en los lenguajes de programación más comunes, permitiendo utilizar el lenguaje y herramientas que se consideren más adecuadas para realizar una determinada tarea.

Dentro del concepto de Hadoop, por último, hemos de incluir su rico ecosistema (Flume, Pig, Zookeeper, Spark, Oozie, etc.), clave a la hora de implementarlo en entornos reales. Aunque podemos lograr muchas cosas trabajando con el corazón de Hadoop, HDFS y MapReduce, las herramientas que conforman su ecosistema resultan necesarias para obtener los mejores resultados. De hecho, hoy es inconcebible Hadoop sin éste.

 

Descárgate nuestra Guía sobre Big Data

 

¿Existiría Big Data sin Hadoop?

Puesto que Hadoop es el motor que facilita la gestión de los grandes datos a un bajo coste, podría pensarse que el famoso framework y Big Data son un tándem inseparable. Sin embargo, son dos realidades diferentes y, si queremos, incluso complementarias, pero no interdependientes o, al menos, no en lo esencial.

Por un lado, es cierto que Hadoop ha marcado un antes y un después a la hora de abrir nuevos enfoques o tecnologías de procesamiento de tipo predictivo, SAS o SQL, entre otros muchos. Su capacidad para almacenar ingentes cantidades de información y para ejecutar rápidamente aplicaciones de análisis de distintos tipos o, pongamos por caso, de protección contra el fraude, han hecho de él un imprescindible a la hora de trabajar y, en suma, cuando se trata de sacar rendimiento de estos datos masivos. Aún así, el aumento exponencial de datos, ese universo de Big Data que se muestra imparable seguiría existiendo sin Hadoop, aunque no sería tan accesible trabajar con ellos.

¿Por qué tanto revuelo con Hadoop?

La aparición de Hadoop, fundamentalmente, obedece a una necesidad práctica que hasta su aparición no tenía una respuesta viable, que hiciera factible trabajar con los grandes datos de forma asequible. Su uso abre las puertas a un eficiente análisis de los grandes datos, hasta ahora relegado a soluciones de alto coste que impedían su popularización a nivel organizacional.

Con su irrupción, el análisis de los datos estructurados y desestructurados no encuentra los impedimentos de antaño para la extracción de valor para el logro de la tan buscada ventaja competitiva a nivel empresarial, además de otros objetivos, ya sea con fines científicos, de gestión pública o de análisis y gestión del Internet de las cosas.

No puede negarse que gracias a Hadoop es posible el procesamiento distribuido de grandes datos mediante modelos de programación simples, y que si su existencia Big Data no hubiera cobrado las actuales dimensiones. Por lo tanto, dentro de este apasionante contexto, sus posibilidades son inmensas y abren la puerta a conseguir resultados fascinantes, aunque también la moneda del Big Data tiene su cruz, con lo que a nivel social Hadoop también puede conllevar inconvenientes de distinta índole.

¿Quién debe usarlo, y cómo me puede ayudar?

Aunque no lo parezca, la implementación de Hadoop no depende del tamaño de la organización, sino de la necesidad que se tenga de extraer valor de los grandes datos. De hecho, tal y como hemos apuntado, una característica clave del framework del elefante amarillo es constituir una solución de bajo costo para extraer valor de Big Data.

Así las cosas, Hadoop es una oportunidad de oro para todo tipo de organizaciones, independientemente del tamaño y el sector, que necesiten manejar grandes datos con eficiencia para obtener un beneficio en uno u otro sentido. En estos casos, únicamente Hadoop hará la diferencia y, sin duda, será de gran ayuda para alcanzar objetivos que en muchas ocasiones podrían superar las primeras expectativas.

¿Implementar Hadoop es complicado?

La implementación de Hadoop, así pues, permite extraer valor de los datos masivos con el fin de obtener una ventaja competitiva o bien para analizarlos con otros fines. Sin embargo, a su vez representa un desafío tecnológico que puede asustar en un primer momento, pero lo cierto es que resulta obligado cuando su uso es recomendable. Al menos, así es si no se quiere fracasar en el actual entorno competitivo, una implementación que precisa de expertos para llegar a buen puerto.

Entender Hadoop, en efecto, requiere de una especialización tanto a nivel tecnológico como a la hora de extraer una valiosa información a partir de los datos, esta última una tarea encomendada a los data scientist, unos profesionales que escasean. Afortunadamente, los expertos esperan que este exceso de demanda propio de estos primeros momentos acabe por equilibrarse a medio plazo, con una normalización que se traduzca en un progresivo aumento de la oferta.

¿Hadoop es Java?

Que Hadoop sea un framework escrito en Java no significa que podamos establecer una igualdad entre ambos. Sí es cierto que Java es el lenguaje nativo de Hadoop, pues el HDFS se crea con este idioma, los trabajos MapReduce pueden escribirse en otros lenguajes, como SQL, Perl, Bash, Python, C++ o, utilizando la utilidad Hadoop Streaming, en cualquier otro. A su vez, dentro del ecosistema Hadoop coexisten diferentes elementos diseñados en lenguajes diferentes.

¿Hadoop es compatible con el NoSQL?

Aunque pueda parecer que Hadoop es incompatible con la gestión de bases de datos NoSQL, su uso puede ser complementario, pues ambos son sistemas de gestión alternativos al modelo relacional con sus peculiaridades, debilidades y fortalezas. 

Su complementariedad se planteará en función de las necesidades concretas, por lo que podría ser convientente tanto usarlos por separado como en arquitecturas mixtas. Hadoop no es necesariamente una tecnologías disruptiva sino una posibilidad distinta a la hora de gestionar bases de datos y decantarnos por uno u otro o aprovechar ambos dependerá de cada caso y, en general, de los beneficios que nos reporten sus diferentes características.

Encontrar más respuestas en ebooks

Son numerosos los libros que abordan de forma específica el esclarecimiento de los aspectos más básicos sobre Hadoop, orientando las respuestas a la práxis. El libro "Hadoop in practice", de Alex Holmes, persigue facilitar su comprensión y basa su estructura en responder a cuestiones prácticas sobre Hadoop, si bien está un tanto desactualizada en lo que a software concierne.

Si nuestro objetivo es encontrar respuestas a preguntas básicas en el libro Hadoop para Dummies, de Robert D. Scheneider (2012) encontraremos una amena introducción al universo de Hadoop, incluyendo su historia, retos tecnológicos y lenguajes de programación. Scheneider, analista de Silicon Valley, escritor y articulista de temáticas relacionadas con las tecnologías de Big Data, logra ese punto de equilibrio entre el rigor y el tono divulgativo.

En un nivel más avanzado podemos elegir entre un sinfín de libros de Hadoop que profundizan en distintos temas desde un enfoque profesional. Entre ellos, uno imprescindible es la prestigiosa guía de Tom White, "Hadoop, The Definitive Guide", un práctico manual de consulta muy recomendado si ya se trabaja con Hadoop.

Fuente imagen: Michael Elliot / FreeDigitalPhotos.net

 

Post relacionados:

 
Enlace a guía gratuita sobre Big Data y Hadoop

Topics: Big Data