El valor de la gestión de datos

Hadoop 1.0.3 api: viaje a la nube

Publicado el 3/04/14 4:00

Desde las primeras versiones de Hadoop a la versión Hadoop 1.0.3 api los principales cambios han ido en busca de la seguridad y la optimización de los tiempos de procesamiento. Las limitaciones de los TaskTrackers dejaron de suponer un problema y se avanzó enormemente gracias a la opción de ejecución especulativa. La última versión es la que reúne mayores cambios, en espacial en lo concerniente a almacenamiento HDFS.

 

Hadoop 1.0.3. api

El 16 de mayo de 2012 se conoció Hadoop 1.0.3. api. Esta versión corregía los errores detectados en el modelo anterior (1.0). También supuso la llegada de algunas mejoras entre las que cabe destacar:

- Correcciones de emisión de producción.

- Parches de limpieza para el manejo de errores y los mensajes de registro.

- Parches de soporte para los JDK no Oracle.

 

 

Créditos fotográficos: Apache Software Foundation

 

 

Descárgate nuestra Guía sobre Big Data 

 

Después de dos años en funcionamiento, hace poco más de un mes se lanzó la versión mejorada, Hadoop 2.3.0, que contiene una serie de cambios significativos como:

- Apoyo a la jerarquía de almacenamiento heterogéneo en HDFS.

- Distribución simplificada de los binarios de MapReduce a través de HDFS en YARN Distributed cache.

- Caché In Memory para datos HDFS con gestión y administración centralizada.

Una de las principales novedades de Hadoop HDFS 2.3.0 en comparación con su predecesor Hadoop 1.0.3 api es el almacenamiento en caché, que permite lecturas de velocidad de memoria en HDFS. Esta característica ha sido desarrollado por  los ingenieros Andrew Wang y Colin McCabe.

La exploración de datos complejos mediante un análisis personalizado y adaptado a las necesidades de cada negocio sólo es posible gracias a Hadoop. Este software permite combinar datos antiguos con actuales en cualquiera de los nuevos modos que pueden requerirse para perfeccionar análisis complejos, posibilidad que ya existía desde Hadoop 1.0.3 api.

Sin embargo, la escalabilidad es su mejor baza. La velocidad de búsqueda aumenta a la vez que los tiempos se reducen drásticamente: los datos se disponen de modo distribuido y Hadoop accede a ellos de forma paralela. Estas cualidades lo configuran como el aliado imprescindible para interactuar con y en la nube.

 

 

La nube y Hadoop

"Superar a la competencia en un 20% en lo que a resultados financieros se refiere es un gran paso, algo que en 2015 será una realidad para todos aquellos negocios que utilicen Big Data y construyan un moderno sistema de gestión de la información", Gartner, Mark Beyer, "Information Management in the 21st Century"

 

 

Créditos fotográficos: "Businessman Holding Smart Phone" by pakorn

 

 

Las bases de datos relacionales, que tanta seguridad aportaban a cualquier empresa, comienzan a presentar una imagen debilitada que proviene de su bajo rendimiento a la hora de trabajar con Big Data. Problemas de coste, de tiempos de respuesta, de capacidad, de procesamiento... no puede prescindirse de ellas (ni se debe hacer), pero necesitan de un complemento como Hadoop, un sistema de almacenamiento y procesamiento distribuido que resulta idóneo para ascender a la nube con plenas garantías.

La nube aporta a los negocios una infraestructura idílica donde la escalabilidad, la agilidad y la innovación son compatibles con la estabilidad. Pero integrarse con la nube requiere de un software sólido y dinámico a la vez, preferiblemente open source, que satisfaga las necesidades que van apareciendo en el camino. Hadoop se plantea como la mejor alternativa, y así opinan algunas de las empresas tecnológicas más reputadas que lo usan desde hace años, como:

- Facebook

- Twitter

- Yahoo

- Cloudera

- eBay

- LinkedIn

- Amazon

Utilizar un cluster Hadoop en la nube implica no tener que preocuparse de consumir recursos propios aunque la mayoría de las empresas citadas han optado por esta segunda opción. En cualquiera de los casos, la adaptabilidad, el ahorro de costes y el aumento de oportunidades están garantizadas y por eso muchos ya aseguran que la nube está aquí y ha llegado para quedarse.

Si quieres que tu empresa acceda al mundo de la nube de la mano de Hadoop, si ya no Hadoop 1.0.3, Hadoop 2.3.0, sólo hay dos acciones que te separan de convertir tu plan en realidad:

- Instalar Java. Acude al sitio oficial de Java y descarga la máquina virtual. Procede a la instalación siguiendo las instrucciones del proveedor. Comprueba que todo está correcto.

- Entra en la web de Apache y descarga Hadoop de la página de descargas. El fichero se descarga en formato comprimido por lo que hará falta hacer una descompresión escogiendo previamente el directorio de destino.

Si tu empresa es española puede que te encuentres en el 40% destacado por IDC que desconfía de un servicio que proviene del otro lado de nuestras fronteras. Olvida el escepticismo y toma ejemplo de los líderes viajando en la nube con Hadoop.

 Post relacionados:

Hadoop ¿sí o no? Las preguntas que te ayudarán a decidir

Databricks certificará sofware de terceros para Spark Apache

HDFS y MapReduce, la base de un Hadoop robusto


Enlace a guía gratuita sobre Big Data y Hadoop

Temas: Big Data