El valor de la gestión de datos

Cinco puntos débiles de Hadoop

Posted on Mon, Jan 26, 2015

Hadoop puntos debiles

Puesto que Hadoop no es perfecto, y ni siquiera se acerca a serlo, conviene conocer sus debilidades para hacerles frente o, en todo caso, para buscar otras opciones que lo reemplacen. ¿Pero, acaso Hadoop no es una fórmula de éxito, que nos brinda un sinfín de ventajas en el tratamiento de grandes datos a un bajo coste? En efecto, Hadoop lleva camino de convertirse en la plataforma estrella para la próxima generación de aplicaciones de datos y, de hecho, actualmente es la opción más eficiente para los archivos distribuidos en cuanto a rendimiento y disponibilidad, pero no está libre de defectos. 

Como ocurre prácticamente con cualquier producto específico de grandes prestaciones, también Hadoop adolece de importantes problemas en otros aspectos, en parte precisamente por su gran especialización y resultados sin competencia en lo suyo.

Quizá sea el precio que estemos pagando a cambio de beneficiarnos de sus indudables ventajas en el procesamiento de grandes cantidades de datos heterogéneos procedentes de distintas fuentes. Sin embargo, y ésta es la buena noticia, ninguno de sus problemas es lo suficientemente grave como para no encontrar soluciones que los minimicen. Ni, mucho menos, para que tengamos que descartarlo. No en vano, hoy por hoy, Hadoop es la llave a la analítica de grandes datos.

Las 5 debilidades de Hadoop 

A pesar de haberse invertido en él más de mil millones de dólares, el software de grandes datos Hadoop todavía es difícil de manejar, lo que significa que requiere de equipos de especialistas de TI que dominen Hadoop para cuidarlo y mantenerlo funcionando. 

Su crecimiento imparable, sin embargo, despierta el interés de clientes de muy distinto perfil, que muy probablemente crecerían aún más si Hadoop fuese más fácil de usar. Son usuarios no especializados, para los que Hadoop significa un problema en este sentido.

Si bien las distribuciones comerciales ayudan a minimizar éstos y otros problemas y, del mismo modo, es posible buscar soluciones de código abierto que mejoren sus carencias, es importante conocerlas para actuar en consecuencia: 

  1. Faltan ingenieros: Actualmente, es complicado encontrar personal técnico que pueda implementarlo y esta carencia puede generar problemas de soporte en caso de falta de conocimientos. 

  2. Sus servicios son caros: La misma escasez de técnicos deriva en un coste alto por sus servicios, que se mantendrá hasta que no empiece a haber más técnicos. 

  3. Actualizaciones constantes: Salen versiones nuevas todas las semanas, lo que implica un problema a la hora de implementarlas, habida cuenta, además, de que para hacerlo se precisa llevar a cabo un complejo proceso de certificación. 

  4. Seguridad y real time: Al estar optimizado para escalar, se sacrifican algunas características que en entorno empresarial son importantes, como la seguridad o el procesamiento en real time. 

  5. Conectividad: En Hadoop es un problema y, de hecho, la integración con Hadoop no es fácil. Por lo tanto, hay menos opciones de conectividad, lo que supondrá un problema a la hora de integrar la información. 


Descárgate nuestra Guía sobre Big Data

Errores subsanables de la arquitectura de Hadoop

Como hemos adelantado, sus puntos fuertes son los que a la postre han marcado sus deficiencias. Adaptar su uso al contexto organizacional requiere tomar medidas al respecto, buscando el modo de minimizar esos problemas en la medida que supongan un obstáculo en cada caso. Por ejemplo, los problemas de seguridad conllevan una no autentificación y, por otra parte, el procesamiento en real time se logra aplicando complementos de su mismo ecosistema, como Spark.

Las tecnologías que van surgiendo son otra tabla de salvación para no acabar naufragando en el proceloso mar de pequeños y grandes inconvenientes que conlleva Hadoop. Y, en todo caso conviene valorar si el rendimiento y la fiabilidad que nos ofrece son realmente importantes para nuestra empresa.

Si la respuesta es positiva, Hadoop será una opción inmejorable, y además contamos con la opción de recurrir a las distribuciones comerciales, que buscan eliminar puntos débiles con distintos componentes en real time o realizando una calificación cada cierto tiempo. Se trata, en suma, de suplir debilidades, de compensarlo para que sea viable. Y, en todo caso, la misma madurez que el mismo Hadoop vaya adquiriendo con el tiempo puede brindarnos grandes sorpresas, entre otras una mejora sustancial en la capacidad de integración. 

Hadoop como servicio alojado 

Por otra parte, existen varios proveedores de infraestructuras que ofrecen Hadoop como servicio, entre ellas Amazon Web Services o Microsoft Windows Azure, que ofrecen copias de la distribución e líniea, pero lo cierto es que para correrlas se requiere experiencia administrativa y siguen existiendo otros problemas, como el de la actualización.

Atiscale o Pivotal ofrecen servicios Hadoop que buscan acabar con eternos problemas como la falta de experiencia o la necesidad de contar con una infraestructura. Altiscale, por ejemplo, ofrece Hadoop como servicio alojado, lo que puede ser de utilidad para algunas organizaciones que ya tienen algunos clústers de Hadoop y necesitan mayor capacidad. Pivotal está intentando que la nube sea más eficiente a la hora de ejecutar Hadoop, mientras Altiscale se ha planteado el desafío de llevar Hadoop a la nube para reducir su coste y facilitar su uso.

Fuente imagen: renjith Renkith Krishnan / FreeDigitalPhotos.net

 

Post relacionados:

hadoop y el bigdata

Topics: Big Data