La creación misma de este framework opensource respondió en su día a una necesidad práctica que reclamaba una gran solución para solventar un gran problema. Google se vio incapaz de responder a las exigencias del mercado a la hora de indexar datos y decidió buscar una solución que, finalmente, adoptó la forma de un efectivo sistema de archivos distribuidos.
Fue en 2006 cuando Google publica los detalles de su hallazgo revolucionario, y no solo por encontrar una salida inédita que ofrecía grandes posibilidades a bajo coste, sino porque daría lugar al nacimiento de Hadoop, que como framework opensource en continuo desarrollo está ofreciendo grandes oportunidades a las organizaciones para almacenar, procesar y analizar grandes volúmenes de datos.
Su imparable popularización en entornos productivos obedece, entre otras razones, a la minimización de los riesgos de aplicación que se obtienen gracias a la aparición de distintas distribuciones comerciales que incluyen soporte técnico, por lo que no es necesario depender de la comunidad opensource para solucionar posibles problemas.
Actualmente su enorme versatilidad está demostrando no tener límites en cuanto a las posibles aplicaciones. Los desarrolladores de Hadoop y los data sciencist tienen ante sí un universo por explorar, todo un mundo de posibilidades para conseguir jugosas ventajas competitivas trabajando con los datos.
Ya sean proyectos a pequeña y gran escala, para alcanzar uno u otro fin, las organizaciones están adoptándolo para aprovechar sus ventajas, entre ellas su opción estrella: la realización de consultas de la información almacenada que, gracias a su rico ecosistema también pueden realizarse en tiempo real.
En efecto, toda organización que utilice Hadoop puede sacar provecho de ingentes cantidades de datos desestructurados, procedentes de distintas fuentes. Su implementación va más allá del simple almacenamiento de una enorme cantidad de datos, pues si bien es un repositorio centralizado de datos, su capacidad de análisis es la que realmente marca la diferencia como plataforma abierta a distintos enfoques o tecnologías de procesamiento.
Y es que Hadoop no solo es un marco de almacenamiento y procesamiento. Sobre todo, es una plataforma transformadora que se adapta a las distintas necesidades para otorgar una ventaja competitiva en los más distintos aspectos, desde descubrir nuevas ideas, mejorar procesos operativos o, por ejemplo, ayudar a tomar decisiones informadas, mucho más fiables que las simplemente basadas en la experiencia o la intuición.
Gracias al almacenamiento de datos en crudo (Data Lake, Raw Data) se puede trabajar con ellos para hacer consultas a partir de información consolidada y contextualizada. Es una labor que realizan desarrolladores y científicos de datos, similar a la que puede llevar a cabo un fotógrafo cuando trabaja con un archivo de imagen en formato RAW o, parafraseando a John Kreisa, vicepresidente de marketing de Hortonworks, parecida a la que se hace en "una refinería de petróleo, donde los datos son como el aceite crudo".
Siguiendo con el símil fotográfico, la información digital contenida en el formato RAW todavía no ha sido procesada por lo que ofrece una rica imagen con más detalles, resolución y menos ruido, que el fotógrafo puede interpretar con libertad, además de un sinfín de datos que también podemos aprovechar en función de nuestras necesidades, desde información como la distancia focal del objetivo, el diafragma, el balance de blancos, el tipo de cámara, la velocidad del disparo o el espacio de color e incluso dónde se ha realizado la captura si la cámara dispone de GPS.
Es así que, del mismo modo que un profesional de la imagen puede sacar más partido de un RAW que de un formato JPG a la hora de aprovechar una situación difícil de luz o la posibilidad de descubrir detalles en la sombra debido a su mayor rango dinámico, Hadoop posibilita partir de un Raw data para hacer la lectura del dato en función de diferentes necesidades, y tantas veces como sea necesario.
Tal vez te interese leer:
Big Data, clave para la supervivencia empresarial
Gracias a esa ventajosa flexibilidad, Hadoop es una plataforma idónea para afrontar nuevos retos y dar solución a problemas que antes no se podían afrontar, o que simplemente ni siquiera se planteaban. Gracias a esa versatilidad (en la que tiene mucho que ver su interesante ecosistema) las empresas han encontrado muchos usos diferentes a Hadoop, que ya no es exclusivo de sectores como el financiero o el digital.
Más que algo abstracto, casi mágico a tenor del tratamiento mediático que se le da al Big Data, explotar los grandes datos consiste en hacer un uso adecuado de distintas herramientas en el marco de trabajo que brinda un entorno Hadoop con el fin de responder a las necesidades concretas que se traduzcan en un aumento de ingresos y en un crecimiento.
El objetivo u objetivos pueden ser muy distitintos: solucionar problemas operativos que mejoren la eficiencia, alcanzar nuevas metas en investigación y desarrollo, aumentar ventas o extraer ideas (reforzar el BI) que nos proporcionen una ventaja comparativa.
Reiterando lo apuntado al inicio del artículo, si necesitamos trabajar con grandes datos, necesitamos Hadoop, al margen del sector o tamaño de la empresa. De acuerdo con un reciente estudio de Forrest Consulting para Xerox, de la amplia gama de casos de uso observado en medianas y grandes empresas, las prioridades se centran en mejorar la eficiencia operativa y gestionar el riesgo de manera más efectiva.
A su vez, el estudio revela que, según los encuestados, -altos ejecutivos de más de 300 empresas europeas-, el verdadero potencial de la analítica se encuentra en su utilidad para tomar decisiones estratégicas, en particular al ofrecer servicios novedosos (39%) o apostar por un modelo de negocio más exitoso (24%) que el de la competencia.
Son innumerables los posibles ejemplos prácticos del uso de Hadoop implementados para aprovechar las grandes oportunidades que ofrece Big Data, si bien entre los más exitosos se encuentran los siguientes:
Tal vez te interese leer:
Las diferentes expectativas, una barrera para el éxito del Big Data
Para la Banca es habitual su uso para optimizar ofertas, mejorar el servicio a clientes, detectar el fraude o el riesgo de crédito, mientras el sector de los Seguros además de aprovechar sus ventajas para controlar fraudes y abusos se beneficia de la analítica de rendimiento de producto, o de la vista 360º de cliente mejorada.
Las telecomunicaciones, por ejemplo, gracias a Hadoop pueden ofrecer servicios basados en localización, disponer de un Call Center proactivo o realizar analítica de Red, entre otras muchas posibilidades que van surgiendo conforme van creándose necesidades o surgiendo nuevas ideas.
El Retail o comercio al por menor es otro sector que está aprovechando Hadoop para ganar en competitividad con analítica de cliente y fidelización o, por ejemplo, para lograr mejoras en logística, y el Gran Consumo no le va a la zaga con optimización de Trade Funds, cumplimiento de mercancías o la disponibilidad de productos en estantería.
Las campañas multicanal, optimización del comercio digital, de audiencias y marketing e incluso la transformación misma de procesos de negocio son propios del sector de Medios y Entretenimiento o, dentro de Transporte y Turismo, analítica de cliente y fidelización, de mantenimiento predictivo u optimización de capacidad y precios.
Pero Hadoop no solo ha irrumpido en el entorno productivo, sino también a nivel de gestión pública a través de soluciones de mejora de servicios públicos, servicios fiscales y tributarios o relacionados con Defensa e Inteligencia.