El valor de la gestión de datos

¿Son compatibles Hadoop y el NoSQL?

Posted on Wed, Apr 1, 2015

Big Data Hadoop

Tanto NoSQL como Hadoop facilitan el manejo de los grandes datos. Ambas son soluciones de Big Data para el almacenamiento de los grandes datos, complementarias y compatibles entre sí y también con respecto a las tradicionales bases de datos relacionales.

Frente a los sistemas de gestión de bases de datos relacionales, considerados los estándar para gestionar datos estructurados, de acuerdo con el modelo relacional, el NoSQL y Hadoop representan un marco completamente distinto, si bien entre ellos también tienen sustanciales diferencias.

En ambos casos podemos recurrir a ellos para satisfacer las demandas de tratamiento de datos grandes, en especial el almacenamiento y procesamiento de información no estructurada, y hacerlo por separado o conjuntamente. Los requerimientos de cada caso determinarán la fórmula más idónea para permitir a las organizaciones alcanzar el potencial completo con los datos a la hora de almacenarlos y trabajar con ellos.

Manejo de datos masivos con Hadoop y NoSQL

En función de las necesidades concretas, por lo tanto, sería conveniente su uso por separado o conjunto en arquitecturas mixtas que nos permitan beneficiarnos de sus características de forma estratégica. Se trata, en suma, de aprovechar las tecnologías disponibles para encontrar las respuestas más eficientes.

Por un lado, encontramos NoSQL como infraestructura, una solución para el almacenamiento y procesamiento de bases de datos de alto rendimiento a escala masiva que nos permite un almacenamiento de datos que crecen exponencialmente, así como su gestión.

Básicamente, las bases de datos NosQL nos permiten almacenar datos masivos de un modo más factible que las bases de datos relacionales, combatiendo problemas de escalabilidad y rendimiento en situaciones típicas de concurrencia de miles de usuarios y de millones de consultar diarias. 

Los modelos empleados para almacenar la información no utilizan una estructura de datos en forma de tabla, sino otras basadas en esquemas como clave-valor, mapeo de columnas o grafos, lo que representa una gran diferencia con respecto a los sistemas SQL. Frente a éstos, también se obtienen ventajas a la hora de ejecutar en máquinas con focos recursos, mejorar la escalabilidad, manejar grandes cantidades de datos y evitar los cuellos de botella. 

Los sistemas NoSQL no requieren estructuras fijas al estar basados en una estructura de naturaleza clave-valor, entre otros modelos de almacenamiento, según los diferentes tipos de bases de datos NoSQL (bases de datos clave-valor, documentales, en grafo, orientadas a objetos, etc.). Su uso es interesante para el almacenamiento y uso documental de datos masivos como, por ejemplo, guadar información como documentos y registros de ventas.

Al no utilizar SQL como lenguaje de consultas, el NoSQL nos permite una consulta más rápida que una base de datos relacional, y también es posible la indexación. Además, no deja de dar servicio, aunque si comparamos sus características con las que nos ofrece Hadoop encontraremos puntos débiles, como sus mayores dificultades a la hora de escalar. Por otra parte, las escrituras no son durables ni verificables y, entre otros, existe el problema de la integridad de datos.

Una base de datos NoSQL, en fin, nos proporciona un sistema de gestión distinto a los sistemas relacionales, con sus pros, sus contras, sus fortalezas y debilidades con respecto a las bases de datos relacionales y también al framework Hadoop. Ambos son sistemas de gestión de bases de datos alternativos al modelo relacional, y si bien NoSQL nos proporciona una cierta funcionalidad, si establecemos una comparación, no es una solución tan potente como Hadoop, pero sus características pueden hacerlo interesante.

Decantarnos por el uso de las bases de datos NoSQL y/o de Hadoop en lugar de las bases de datos SQL responderá a necesidades planteadas por el volumen de datos, por la exigencia de escalabilidad y la heterogeneidad de los datos que se insertan.

Por otro lado, Hadoop se ha convertido en la tecnología de referencia para el almacenamiento y procesamiento de datos no estructurados a bajo coste. De hecho, Hadoop y su ecosistema han convertido a los grandes datos en una ventaja competitiva para un número creciente de empresas, más allá de Amazon, Facebook o Google.

Si el objetivo es almacenar y extraer valor de los grandes datos, Hadoop es de obligada mención. Por lo tanto, cuando Gartner afirma que el 73 por ciento de las empresas prevé invertir en Big Data a corto plazo o ya lo ha hecho, significa que muchas de estas empresas van a apostar por Hadoop.

Sistemas de almacenamiento compatibles

Frente a las bases de datos NoSQL, el framework del elefante amarillo es mucho más eficiente para realizar análisis, si bien ambos elementos van de la mano en el mundo de Big Data, junto con las herramientas de reporting, conformando una tríada inseparable como tecnologías más innovadoras para los grandes datos.

Pese a ser diferentes y poder actuar de forma autónoma, resultan compatibles. No en vano, la integración entre sistemas NoSQL y Hadoop es casi nativa y, asímismo, cada base NoSQL tiene su propia interfaz, por lo que es fácilmente integrable con Hadoop.

En muchas ocasiones será de gran ayuda conectarse a Hadoop para hacer análisis desde NoSQL, donde guardamos información que luego operaremos con el popular framework opensource basado en la computación distribuida.

El NoSQL, quizá, está más orientado a complementar, aportando sus puntos fuertes y, al tiempo, aprovechando los de Hadoop. En búsquedas o datos de tipo clave-valor, pongamos por caso, es más eficiente que Hadoop, mientras éste, un conjunto de altgoritmos y funcionalidades, nos permite almacenar y procesar, crecer de un modo económico. En función de los requerimientos que tengamos, veremos que, muy a menudo, los dos van a necesitarse.

Fuente imagen: digidreamgrafix /  FreeDigitalPhotos.net

 

Post relacionados:

 
BIG DATA LAS CUATRO GRANDES EMPRESAS

Topics: Big Data