El Valor de la Gestión de Datos

¿Qué es Big Data Hadoop y para qué sirve?

Escrito por Redacción PowerData | 27/01/17 2:00

Hadoop es un framework opensource para almacenar datos y ejecutar aplicaciones en clusters de hardware básicos. Proporciona un almacenamiento masivo para cualquier tipo de datos, un enorme poder de procesamiento y la capacidad de manejar tareas o trabajos prácticamente ilimitados. Esto básicamente y de forma muy concreta es lo que es hadoop. Y ¿para qué sirve?

En algún otro artículo te hemos explicado la historia de Hadoop y como nació a partir de la necesidad de Google para poder procesar todos los datos de la web. Veamos ahora otros conceptos importantes de Hadoop que nos van a dar las claves de porqué Hadoop es importante, cuáles son los desafíos de utilizar hadoop, cómo se utiliza,... en definitiva qué es Hadoop y para qué sirve.

 

 

¿Por qué es importante Hadoop?

  • Capacidad para almacenar y procesar grandes cantidades de cualquier tipo de datos rápidamente. Con volúmenes y variedad de datos en constante aumento, especialmente de lo que se refiere a medios de comunicación social y del Internet de las Cosas, esto es una consideración clave.
  • Poder de procesamiento. El modelo de computación distribuida de Hadoop procesa rápidamente Big Data. Cuantos más nodos de computación se utilizan, más poder de procesamiento tendrás.
  • Tolerancia a fallos. Los datos y el procesamiento de aplicaciones están protegidos contra fallos de hardware. Si un nodo disminuye, los trabajos se redirigen automáticamente a otros nodos para asegurarse de que la computación distribuida no falla.  Se almacenan automáticamente varias copias de todos los datos.
  • Flexibilidad. A diferencia de las bases de datos relacionales tradicionales, no es necesario preprocesar los datos antes de almacenarlos. Puedes almacenar tantos datos como desees y decidir cómo utilizarlos más tarde. Esto incluye datos no estructurados como texto imágenes y vídeo.
  • Bajo coste. El framework de código abierto es gratuito y utiliza hardware básico para almacenar grandes cantidades de datos.
  • Escalabilidad. Puedes hacer crecer fácilmente el sistema para manejar más datos simplemente añadiendo nodos. Se requiere poca administración.

 

 

Tal vez te interese leer: 
Big Data en Salud: ¿por qué la Gobernanza de Datos es imprescindible?

 

 

 

¿Cuáles son los desafíos de usar Hadoop?

  • La programación con MapReduce no es un buen partido para todos los problemas. Es bueno para peticiones de información simples y problemas que se pueden dividir en unidades independientes, pero no es eficiente para tareas analíticas, iterativas e interactivas. MapReduce es  intensivo en ficheros y los algoritmos iterativos requieren varias fases de distribución  y ordenación de mapas  para completar. Esto crea varios archivos entre fases de MapReduce y es ineficiente para la computación analítica avanzada.
  • Existe una brecha de talento ampliamente reconocida. Puede ser difícil encontrar programadores de nivel que tengan suficientes habilidades de Java para ser productivos con MapReduce. Esa es una razón por la que los proveedores de las distribuciones compiten para poner la tecnología relacional SQL encima de Hadoop. Es mucho más fácil encontrar programadores con habilidades de SQL que con habilidades de MapReduce. Y la administración de Hadoop parece parte arte y parte ciencia, requiriendo un bajo nivel de conocimiento de los sistemas operativos, el Hardware y la configuración del kernel de Hadoop.
  • Seguridad de datos. Otro desafío se centra en los problemas de seguridad de datos fragmentados, aunque están surgiendo nuevas herramientas y tecnologías. El protocolo de autenticación Kerberos es un gran paso hacia la seguridad de los entornos Hadoop.
  • Gestión y gobierno de datos. Hadoop no tiene herramientas completas y fáciles de utilizar para la gestión de datos, limpieza de datos, gobernanza y metadatos. Especialmente carece de herramientas para la calidad de los datos y la estandarización.

 

 

Tal vez te interese leer: 
Big Data Governance. Tomando el control del Big Data

 

 

 

¿Cómo se utiliza Hadoop?

Más allá de su objetivo original de buscar millones o miles de millones de páginas web y devolver resultados relevantes, lo que es y para qué sirve Hadoop es lo que muchas organizaciones buscan en Hadoop. Las empresa buscan que Hadoop sea su próxima gran plataforma de datos. Los usos más populares de hoy en día son:

  • Almacenamiento y archivo de datos de bajo coste. El modesto coste del hardware hace que Hadoop sea útil para almacenar y combinar datos tales como datos transaccionales, de redes sociales, de sensores, máquinas, científicos etc. El almacenamiento de bajo coste permite mantener información que no se considera actualmente crítica pero que podrías necesitar analizar más adelante.
  • Sandbox para descubrimiento y análisis. Debido a que Hadoop fue diseñado para tratar volúmenes de datos en una variedad de formas, puede ejecutar algoritmos analíticos. La analítica de Big Data en Hadoop puede ayudar a una organización a operar de manera más eficiente, descubrir nuevas oportunidades y obtener ventajas competitivas. El enfoque sandbox o de entorno de pruebas ofrece una oportunidad para innovar con una inversión mínima.
  • Data lake. Los data lake permiten almacenar datos en su formato original o exacto, tanto estructurados como sin estructurar, y sin ningún tipo de procesamiento, con el objetivo de ofrecer una visión sin modificar o sin refinar de los datos a los analistas de datos para que puedan utilizarlos para descubrir y analizar. Les ayuda a hacer preguntas nuevas o difíciles sin restricciones. Los data lake no son un reemplazo de los almacenes de datos. De hecho el cómo asegurar y gobernar data lakes es un tema enorme para IT.
  • Complementa tu data warehouse. Ya estamos viendo a Hadoop colocándose junto a entornos de Data Warehouse, así como ciertos conjuntos de datos que están siendo descargados del data warehouse a Hadoop, o nuevos tipos de datos que van directamente a Hadoop. El objetivo final de cada organización es contar con una plataforma para almacenar y procesar datos de diferentes esquemas, formatos etc., para soportar diferentes casos de uso que se pueden integrar en diferentes niveles.
  • IoT y Hadoop. Las cosas en el IoT necesitan saber qué comunicar y cuándo actuar. En el núcleo de la IoT hay un flujo constante de un torrente de datos. Hadoop es frecuentemente utilizado como almacén de datos para millones o miles de millones de transacciones. Las capacidades masivas de almacenamiento y procesamiento también te permiten usar Hadoop como una sandbox de descubrimiento y definición de patrones para ser monitorizados para instrucciones prescriptivas. A continuación puedes mejorar continuamente estas instrucciones ya que Hadoop se utiliza constantemente con nuevos datos que no coinciden con los patrones definidos anteriormente.

 

 

Tal vez te interese leer: 
Big Data y la sustentabilidad: impacto en el medio ambiente

 

 

 

Conclusión

Hemos visto que es Hadoop y para que sirve además de la importancia que tiene en la actualidad para las empresas y los desafíos que supone utilizarlo debido a alguna complicación para encontrar expertos en la materia. Ahora puedes comenzar a utilizarlo para sacar el máximo partido a tu big data. Pero recuerda que si necesitas ayuda lo ideal es preguntar a un experto.