El valor de la gestión de datos

Más allá de Cloudera: soluciones de Hadoop y Big Data

Publicado el 12/06/14 6:12

big data

 

 

Las soluciones de Hadoop y Big Data abren un gran abanico de opciones para el tratamiento de grandes datos. Si bien Cloudera lanzó en su día el primer paquete comercial basado en Hadoop, hoy existe una miríada de distribuciones comerciales que buscan facilitar su configuración e instalación.

A modo orientativo, en un reciente informe de Analyze Future titulado "Hadoop: tendencias de crecimiento de la industria y previsiones hasta el 2020", se selecciona la siguiente decena de empresas como las principales compañías que operan en el mercado Hadoop:

  • Amazon Web Services 
  • Cisco Systems 
  • Cloudera Inc 
  • Datameer, Inc 
  • Hortonworks, Inc 
  • Karmasphere, Inc 
  • MapR Tecnologies 
  • Pentaho Corportion 
  • Teradata Corporation
  • Mark Logic 

Sin embargo, el paisaje está en constante cambio. Según el mismo informe, se espera el aumento del número de distribuidores Hadoop y, por lo tanto, de la oferta del software envasado. De hecho, ésta es una tendencia actual, pues además de estas compañías, constantemente surgen proveedores más pequeños que van ganando fuerza por su agilidad, obligando a las grandes a innovar.

En concreto, el mercado de software empaquetado Hadoop registraría una tasa compuesta anual del 62,9% en el periodo analizado, entre el 2013 y el 2020.

Los distribuidores ayudan a sus clientes a gestionar los datos a través de Hadoop, un software de código abierto que puede ordenar y analizar grandes cantidades de información Big Data. Se trata, en suma, de simplificar el análisis de datos aportando valor al framework original Apache Hadoop, el marco común.

 

Descárgate nuestra Guía sobre Big Data

El ecosistema de Hadoop

Aunque su denominación es singular, en realidad Hadoop es una familia de tecnologías de código abierto supervisadas por la Apache Software Foundation, y por ello algunos de sus productos permiten varias combinaciones y podemos encontrarlos en paquetes comercializados.

De acuerdo con Philip Russom, director de investigación de Gestión de Datos en The Data Warehousing Institute, la librería Hadoop incluye,“ en orden de prioridad de la BI: Hadoop Distribute File System (HDFS), MapReduce, Pig, Hive, HBase, HCatalog, Ambari, Mohout, Fume, entre otros”.

Además, la comunidad Hadoop no deja de crear nuevos proyectos. Aunque una pueden combinarse de varia formas, en opinión del experto, una práctica pila tecnológica sería la constituida por HDFS y MapReduce (tal vez con Pig, Hive y HBase) para aplicaciones de inteligencia empresarial (BI), almacenamiento de datos (DW), integración de datos (DI) y análisis avanzado.

¿Hadoop Apache o distribución comercial?

Las ventajas comparativas entre los distribuidores se centran en sus distintas fórmulas a la hora de implementarse y facilitar la gestión, si bien las soluciones de BI de código abierto pueden responder perfectamente a las necesidades empresariales, según apunta un informe de Forrestar Research.

Cada distribución, por lo tanto, es diferente y al mismo tiempo todas ellas comparten su núcleo, si bien algunos fabricantes ofrecen sus propias aplicaciones de MapReduce. Así, además de las nuevas generaciones de herramientas y de las diferentes opciones comerciales disponibles, Apache Hadoop está abierto a cualquier persona que quiera usarlo para el almacenamiento y procesamiento de grandes cantidades de datos dispares.

El hecho de que Apache Hadoop sea una fuente abierta que se pueda obtener a través de proveedores plantea el inevitable dilema de preguntarse qué opción resulta más conveniente. Además de ser clave comparar las opciones tecnológicas antes de decidir, hay que tener en cuenta el coste económico, la inclusión y necesidad de herramientas administrativas, así como de aspectos igualmente decisivos como el mantenimiento y la asistencia técnica.

 

Post relacionados:

hadoop y el bigdata

 

Fuente imagen: Twobee / FreeDigitalPhotos.net

Temas: Big Data