El valor de la gestión de datos

¿Para iniciarme en Big Data necesito Hadoop?

Posted on Tue, Dec 1, 2015

Iniciarme_Big_Data_necesito_Hadoop

Aprender Hadoop es, sin duda, introducirse en los grandes datos. ¿Pero, y a la inversar? ¿Poner un primer pie en el universo de Big Data exige conocer el framework del elefante amarillo? La respuesta no es sencilla, en especial porque todo depende de una serie de factores que impiden generalizar. 

Por un lado, no puede negarse que existen alternativas a Hadoop para el procesamiento de Big Data. Las había mucho antes de que Hadoop revolucionara el panorama de los grandes datos con su eficaz solución a bajo coste. Sin embargo, eran tremendamente costosas y su uso se limitaba a algunas grandes empresas. 

Actualmente, las alternativas también se caracterizan por esa mayor accesibilidad, pero ninguna de ellas puede comparársele en popularidad. A día de hoy, sus ventajas siguen siendo decisivas, entre otras un bajo coste, un rico ecosistema, su estructura de código abierto, tolerancia a fallos, escalabilidad y la existencia de soluciones comerciales fáciles de implementar.

A la hora de iniciarse en Big Data es importante tener en cuenta que Hadoop es un mercado de miles de millones de dólares, con un crecimiento exponencial que obedece a sus ventajas comparativas. Indudablemente, hablar de Big Data es hablar de Hadoop. Aún así, siguiendo el hilo de nuestro planteamiento, la existencia de alternativas hacen de ellas una posible opción. 

Ante esto, la respuesta parece obvia. Puesto que hay alternativas a Hadoop, éste no es imprescidible para iniciarse en Big Data. Sin embargo, hay importantes matices que pueden aconsejar lo contrario.  

Descárgate nuestra Guía sobre Big Data

La necesidad de negocio nos dará la respuesta

En particular, hay que tener en cuenta que el acercamiento a Big Data deriva de una necesidad de negocio. Ante ello, se hace necesario partir de un determinado planteamiento y, en este caso, Hadoop sí puede ser un imprescindible por distintas razones, como la idoneidad de sus soluciones y/o la rentabilidad de la misma. 

Un factor clave para decidirnos son la escalabilidad y el bajo coste que supone implementar un clúster Hadoop. Así pues, será una buena idea empezar a sacar partido de Big Data utlizando Hadoop como un repositorio centralizado de datos que aumente su capacidad de procesamiento y al tiempo reduzca el coste de almacenamiento. 

Aprovechando esa posible implementación progresiva, nuestro objetivo puede comenzar con un pequeño proyecto y, conforme vayamos mejorando nuestros conocimientos, acabar convirtiéndose en un sistema de misión crítica. Con la ventaja añadida de que en la red podemos encontrar un sinfín de recursos gratuitos para su aprendizaje. 

Por contra, si nuestra intención de iniciarnos en Big Data para llevar a cabo un proyecto que requiera controlar la seguridad, Hadoop no será la mejor opción. Aunque existen soluciones que permiten manejar la situación, muy probablemente no estén al alcance de principiantes y, tratándose de un tema tan peliagudo, no conviene arriesgarse. Del mismo modo, será inapropiado decidirse por Hadoop si nuestra intención es trabajar en tiempo real. Otro talón de Aquiles que sí solventa Spark, parte de su rico ecosistema, pensado para resolver problemas de latencia. Aunque Apache Spark también es viable como alternativa completa. 

También es importante tener en cuenta que Hadoop tiene su complejidad. Al igual que Big Data exige conocimientos matemáticos y técnicos para determinar las opciones tecnológicas idóneas en cada caso, Hadoop conlleva su dificultad. 

Su aprendizaje no será fácil. En la actualidad, las implementaciones más complejas de Hadoop se encuentran mayoritariamente en grandes empresas y en industrias donde los grandes datos son fundamentales para su funcionamiento. Pero su complejidad no impide ir dando pequeños pasos con un alcance bien definido. Es más, la mejor manera de aprender Hadoop hacerlo poco a poco y pasar a la acción.  

Y, por supuesto, antes que preguntarnos si necesitamos Hadoop para iniciarnos en Big Data, planteémonos si realmente aplicación de tecnologías de Big Data y analítica es una necesidad. En caso contrario, abandonemos la idea. No olvidemos que tanto Big Data como Hadoop tienen los pies en el suelo. 

 

Hadoop, la estrella de Big Data 

El aprendizaje de Hadoop sí será esencial desde un inicio el caso de querer introducirnos laboralmente en el sector. Si nuestro objetivo es formar parte del selecto grupo de personas que tienen la profesión más sexy del siglo XXI, según la definió Harvard Business Review, aprender Hadoop desde el principio es casi obligado. 

Salvo excepciones, hoy las empresas que apuestan por los grandes datos utilizan Hadoop como marco de trabajo. Aunque hacerlo será descubrir que el entorno empresarial Big Data no siempre es tan seductora. Su lado práctico suele primar sobre el idealista y, por lo general, los enfoques resultan de lo más prosaicos. Esencialmente, identificar una necesidad y valorar cuál es el retorno de la inversión para tomar una decisión al respecto. 

Muchos son proyectos de Big Data complejos, de alto riesgo, por lo que su implementación precisa de grandes especialistas. O lo que es lo mismo, la fase de aprendizaje de estos profesionales es continua y, sin duda, Big Data es prácticamente sinónimo de Hadoop.  

Su adopción en empresas de menor tamaño, por otro lado, exige hacer un Hadoop más simple, con menos recursos intensivos. Ello no significa que sea más sencillo, si bien en ambos casos contar con soluciones comerciales facilita su implementación. En cualquier caso, atreverse con Hadoop desde el principio es decisivo para alcanzar la especialización que se exige en estos ámbitos.

Fuente imagen: tiverylucky / FreeDigitalPhotos.net

 

Post relacionados:

 

big data hadoop