El valor de la gestión de datos

Cómo elegir entre MongoDB y Hadoop para tu proyecto Big Data

Publicado el 14/04/14 4:00
 

<volver

En este post encontrarás las principales diferencias entre MongoDB y Hadoop. Si no estás familiarizado con el Big Data, puedes descargarte el ebook "Del bit... al Big Data" haciendo click aquí.


Cuando alguien se plantea cómo elegir entre MongoDB vs Hadoop para un proyecto Big Data, generalmente antes han tenido que resolver otras dudas como ¿cuál es la diferencia entre Hadoop y MongoDB? o ¿pueden MongoDb y Hadoop usarse a la vez

Guía gratuita: "Del Bit... al Big Data", descubre todo lo que necesitas saber  sobre Big Data y mucho más.

big data hadoop 

Diferencias entre Mongo DB y Hadoop

Mientras que MongoDB, más sencillo de emplear, utiliza una tecnología C++ de código nativo, Hadoop emplea Java y su uso encierra mayor complejidad. MongoDB suele elegirrse para el trabajo con sistemas de gran volumen y sets de datos de tamaño moderado, mientras que Hadoop da un excelente resultado en Map Reduce sobre Big Data y también en el reporting de la analítica de datos.

Pese a las limitaciones que, de por sí, conlleva la falta de madurez del primero sobre el segundo, hay que prestar mayor atención a su principal inconveniente, que es que en su caso, cada nodo implica un único subproceso, una cuestión que obliga a muchas empresas el decantarse por Hadoop, que no presenta esta desventaja.
Descárgate nuestra Guía sobre Big Data

MongoDB vs Hadoop: quién usa qué

El esquema dinámico de MongoDB y su estructura orientada a objetos, lo convierten en una buena opción para el análisis en tiempo real y los cuadros de mando. Algunas de las empresas que se han dejado seducir por sus ventajas son:

- Idealista.com, que lo usa para almacenar los mensajes de su tablón de anuncios.

- Craigslist, donde esta herramienta permite archivar billones de registros.

- Forbes, que almacena con él sus artículos y datos de empresas del grupo.

Apache Hadoop es una plataforma software de código abierto que funciona con la tecnología de Map Reduce. La innovación que supuso su llegada y su vasta experiencia en el trabajo con Big Data son algunas de las razones que impulsan a muchas organizaciones a elegirlas para sus proyectos de procesamiento, almacenamiento y análisis de grandes volúmenes de datos. Algunas de ellas son:

  • Amazon
  • IBM
  • Cloudera
  • Pivotal
  • DELL
¿Quieres implementar un proyecto de Big Data?  Consulta con un experto para lograr que tu iniciativa en Big Data tenga éxito 

MongoDB y Hadoop, ¿por qué elegir?

¿Por qué plantearse MongoDB vs Hadoop cuando ambos pueden encajar sin problemas en una típica pila de Big Data? Dependiendo de las características del proyecto que se vaya a llevar a cabo las buenas noticias son que no hace falta elegir. El modo de hacerlo es empleando MongoDB como almacén de datos operativos en tiempo real y Hadoop para el procesamiento y análisis de datos. Algunos ejemplos de implementaciones son:

- Agregación de lotes: cuando se requiere una agregación de datos compleja MongoDB se queda corto con su funcionalidad de agregación, que no es suficiente para llevar a cabo el análisis de datos. En escenarios de este tipo, Hadoop proporciona un potente marco de trabajo que resuelve la situación gracias a su alcance. Para llevar a cabo esta asociación, es necesario extraer los datos de MongoDB (u otras fuentes de datos, si se quiere desarrollar una solución multi-datasource) para procesarlos dentro de Hadoop a través de MapReduce. El resultado puede enviarse de nuevo a MongoDB, asegurando su disponibilidad para posteriores consultas y análisis.

- Data Warehouse: en un escenario típico de producción, los datos procedentes de una aplicación pueden vivir en múltiples almacenes de datos, cada uno con su propio lenguaje de consulta y funcionalidad. Para reducir la complejidad en estos escenarios, Hadoop puede ser utilizado como un almacén de datos y actuar como un depósito centralizado para los datos de las diversas fuentes. En esta situación, podrían llevarse a cabo trabajos MapReduce periódicos para la carga de datos de MongoDB en Hadoop. Una vez que los datos de MongoDB, así como los de otras fuentes, están disponible desde dentro de Hadoop, los analistas de datos tienen la opción de utilizar MapReduce o Pig para lanzar consultas a las bases de datos más grandes que incorporan datos de MongoDB.

- Procesos ETL: si bien MongoDB puede ser el almacén de datos operativos para una aplicación, puede suceder que tenga que coexistir con otros almacenes de. En este escenario, es útil alcanzar la capacidad de mover datos de un almacén de datos a otro, ya sea desde la propia aplicación a otra base de datos o viceversa. La complejidad de un proceso ETL excede la de la simple copia o transferencia de datos, por lo que se puede utilizar Hadoop como un mecanismo complejo ETL para migrar los datos en diversas formas a través de uno o más trabajos MapReduce para extraer, transformar y cargar datos en destino. Este enfoque se puede utilizar para mover los datos desde o hacia MongoDB, dependiendo del resultado deseado.

Post relacionados:

 

hadoop y el bigdata

Temas: Big Data