El valor de la gestión de datos

Google, BigQuery, MapReduce y Hadoop: un puzzle que empieza a encajar

Publicado el 13/05/14 4:00

 Cluster  resized 600

La industria del almacenamiento de datos vive una explosión de tecnologías que dan nuevas opciones al usuario casi de forma constante. La ola de innovación en plataformas locales y cloud computing, sin embargo, no implica exclusividad, sino una mayor flexibilidad a la hora de encontrar soluciones para la gestión de información. En este sentido, la adopción de Hadoop como marco para almacenar y procesar grandes datos o la ejecución de BigQuery se revelan como elementos compatibles que encajan en el puzzle de las diferentes soluciones de Big Data. 

Mucho ha llovido desde que Hadoop naciera a partir de algunos documentos técnicos que Google mostró en 2004, resultado de un intenso trabajo durante años. Era una forma de tecnología similar a la que utilizaban para el buscador, introduciendo el sistema de archivos GFS y MapReduce. Más tarde, ya desvinculado del gigante de internet, la Fundación Apache Hadoop lo desarrolló y lanzó al mundo con resultados revolucionarios para la gestión de Big Data. Actualmente, el proyecto de código abierto Hadoop MapReduce basado en HDFS es la tecnología líder en almacenamiento y gestión de grandes datos. 

Pese a buscarse una mejora continua y hacerse importantes avances, la velocidad sigue siendo un insalvable punto débil de Hadoop. " El desarrollo de MapReduce requiere de un complejo desarrollo, de un hardware potente y de mucho tiempo", apuntó Ju-Kay Kwek, director de producto de BigQuery en una entrada del blog corporativo de Google. 

Una carencia que BigQuery, la nueva tecnología de Google basada en Dremel -no en MapReduce, como ocurre con Hadoop-, supera con creces al ofrecer una solución capaz de analizar grandes cantidades de datos en tiempo real, sin límite de tamaño. De hecho, aunque fue lanzada en 2010 con un perfil más complementario, sus últimas actualizaciones parecen perseguir la autosuficiencia del producto con la manifiesta intención de atraer a los usuarios de Hadoop. 

No obstante, si bien su independización como infraestructura era un paso natural, hoy por hoy también su funcionamiento dentro del ecosistema de Hadoop sigue siendo una opción con grandes posibilidades.   

 

Descárgate nuestra Guía sobre Big Data

 

El tándem Hadoop BigQuery

El uso de BigQuery como complemento de Hadoop enriquece el ecosistema del omnipresente framework del elefante amarillo. BigQuery aporta una tecnología veloz y escalable gracias a Dremel para aumentar las opciones que tenemos a nuestra disposición en el procesamiento de información.

Para diseñar una solución eficiente, que cumpla los requisitos necesarios para resolver un problema concreto, se precisa elegir las tecnologías apropiadas, siendo perfecto Hadoop y MapReduce cuando se han de analizar cálculos a intervalos regulares, bien sean análisis diarios, semanales… En este caso, obtener resultados más rápidos, existen numerosas herramientas como Spark, Pig, Hive o Shark. Igualmente, realizar consultas en tiempo real, en cuestión de segundos o minutos, MapReduce no nos sirve y será entonces cuando se recurra a motores columnares y MPP como Cassandra, HBase, Impala o el mismo BigQuery.  

Procesar los datos en Hadoop y consultar los datos estructurados luego con una de las últimas soluciones es una solución a la que suele recurrirse para aprovechar las opciones de ambos sistemas, siempre buscando la eficiencia en la gestión, rendimiento de BI y también en los costes. De este modo, el trabajo MapReduce en Hadoop opera dentro de soluciones en las que encaja perfectamente BigQuery. 

Por último, puesto que la adopción de Hadoop se considera ampliamente un infalible aliado open source para afrontar el desafío de Big Data, su ejecución en la plataforma cloud de Google a través de sus BigQuery SQL y nube de almacén de datos NoSQL constituye una nueva ventaja más de ésta. Que llegue a despegar, alejándose cada vez más de Hadoop, también dependerá mucho de la capacidad de innovación de MapReduce. Siguiendo a Mike Gualtieri, principal analista de Forrester Research, en este sentido "su principal problema es la lentitud" y la complejidad de uso, pero también es cierto que están creándose muchas herramientas para cambiarlo. 

Dentro y fuera de Hadoop

Hadoop es un elemento clave en los servicios de datos de Microsoft y su plataforma de cloud computing Azure, otro ejemplo de servicio de gestión de grandes datos que busca minimizar las complejidades. Un gran esfuerzo de mejora se realiza a su vez desde el mismo Hadoop. En palabras de Gualitieri:

"La comunidad de código abierto y los proveedores comerciales están trabajando frenéticamente para que el acceso SQL sea súper rápido en Hadoop. Eso tenderá puentes hacia muchas otras herramientas de BI para que la interfaz de datos pueda utilizar SQL".

Sea como fuere, el Big Business seguirá necesitando de nuevas soluciones, máxime cuando el volumen de información registra un imparable crecimiento. En este sentido, BigQuery es la apuesta de Google para un funcionamiento dentro y fuera de Hadoop, como demuestran las reveladoras las declaraciones de Barak Regev, responsable de Entreprise Cloud en Google EMEA:

La apuesta de Google se apoya en dos patas. La primera responde al hecho de que nosotros somos uno de los padres de la base de datos más usada en este terreno, Hadoop, y que ahora soportamos en nuestros servicios de infraestructura. Es como volver a acoger al hijo que vimos nacer. La segunda es que somos el único proveedor que puede ofrecer un servicio completamente gestionado, BigQuery, para dar respuesta a los desafíos de Big Data de cualquier empresa.

 

Post relacionados:


Enlace a guía gratuita sobre Big Data y Hadoop

Créditos fotográficos: Megware Computer GmbH

Temas: Big Data