El valor de la gestión de datos

Nueva estrategia de despliegue de Hadoop: análisis de predictibilidad

Posted on Thu, Jul 3, 2014

La nueva estrategia de despliegue de Hadoop se basa en el análisis de predictibilidad y se apoya en YARN. Desde 2012 y, especialmente durante todo el año 2013, Hortonworks ha jugado un papel decisivo en la evolución de Hadoop. La versión 2.0, tan comentada y celebrar en el Hadoop Summit de este año explota sus opciones de rendimiento predictivo para un análisis integral y mucho más consistente.

 

yarn resized 600

Créditos fotográficos: Sarabbit

 

YARN y Hadoop: la alianza que hace posible el análisis de predictibilidad

La génesis de YARN y Hadoop 2 se remonta a un ticket Jira (MapReduce-279) realizado en enero de 2008 por Hortonworks. YARN es el resultado de 5 años de desarrollo posterior en la comunidad open source.

Apache Hadoop Yarn es el sistema operativo de datos para Hadoop 2. YARN permite al usuario interactuar con todos los datos de múltiples maneras a la vez, por lo que convierte a Hadoop en una auténtica plataforma de datos multiuso, permitiéndole alcanzar su puesto en una arquitectura de datos moderna. Entre sus metas se encuentran:

  •  Flexibilidad: habilita los modelos de procesamiento de datos tales como interactivo, streaming y de búsqueda más allá de MapReduce (batch). Al separar el motor de procesamiento inicial de Hadoop (MapReduce) de la gestión de recursos, YARN queda como sistema operativo para Hadoop. Esto significa que muchos motores de procesamiento diferentes podrán operar simultáneamente a través de un clúster Hadoop, sobre los mismos datos y al mismo tiempo.

  •  Eficiencia: integra el procesamiento doble IN Hadoop en el mismo hardware al tiempo que proporciona un excelente rendimiento predictivo y muy buena calidad de servicio. La asignación dinámica de recursos que YARN lleva a cabo ha conseguido duplicar la potencia de procesamiento de Hadoop manteniendo los mismos niveles de rendimiento en cuanto a análisis de predictibilidad y calidad de servicio.

  •  Intercambio de recursos: proporciona un conjunto estable de recursos compartidos comunes a través de múltiples cargas de trabajo coordinadas IN Hadoop, destacando: MapReduce, Solr, Hive, Tez, ORCFile, Pig, Tormenta, HBase, Accumulo o Spark.

YARN ha sido testeado por Yahoo desde septiembre de 2012 y ha estado en funcionamiento a través de 30.000 nodos y 325PB de datos desde enero de 2013. Más recientemente, otras empresas como Microsoft, eBay, Twitter, XING y Spotify han adoptado una arquitectura basada en YARN.

Desde YARN, siempre han defendido que MapReduce es ideal para lotes procesamiento de grandes volúmenes de datos distribuidos, pero no resulta funcional para el procesamiento de datos en tiempo real, el procesamiento gráfico y otros métodos que no se estructuren por lotes. Su iniciativa busca superar esta limitación y transformar Hadoop en una verdadera plataforma global de gestión y análisis de predictibilidad Big Data.

 

Descárgate nuestra Guía sobre Big Data

 

Qué aporta el análisis de predictibilidad

Muchas empresas ya han alcanzado la cuasi madurez en su interacción con big data. Hablamos de organizaciones que explotan sus datos a través de la tecnología adecuada obteniendo:

  •  Acceso a datos más detallados, a históricos relacionados con las ventas, por ejemplo (como podrían ser los que versan sobre clientes, ofertas, perspectivas, socios, productos o canales de distribución), que pueden producir conocimientos más detallados en torno a nuestros indicadores más relevantes.

  •  Acceso a nuevas fuentes de datos no estructurados. En los años ochenta no existían las redes sociales y una solución CRM permitía extraer las directrices necesarias para guiar la toma de decisiones. Hoy el social media es una fuente de información muy valiosa de la que no se puede prescindir.

  •  Acceso a datos en tiempo real. La inmediatez es la consigna y el dinamismo puede convertirse en caos si no se cuenta con el software adecuado.

Sin embargo, todavía hay que perfeccionarse en todo lo relativo a la integración de análisis de predictibilidad. A través de sus conclusiones se puede:

  •  Conocer al cliente y lo que le motivará.

  •  Comprender a la competencia y cómo actuará.

  •  Evaluar la rentabilidad de un producto o servicio antes de lanzarlo al mercado.

  •  Obtener las claves para ajustar procesos y modelos internos.

  •  Ahorrar en costes.

  •  Aumentar la eficiencia.

La sostenibilidad del negocio depende del análisis de predictibilidad y Hadoop propone, desde su ecosistema, las mejores soluciones para pulir las limitaciones que cada día aparecen en la interacción con big data, convirtiéndolas en fuente de oportunidades y creando a la vez un valor estratégico insustituible para la organizaión.

 

Post relacionados:

 

hadoop y el bigdata

Topics: Big Data