El valor de la gestión de datos

Hadoop, eficaz para monitorizar y eliminar datos falsos

Publicado el 5/03/15 5:00

Hadoop monitorear eliminar datos falsos

Del mismo modo que la información es el activo más valioso de las empresas, por pasiva, la falta de calidad de los datos entraña graves riesgos a la hora de tomar decisiones. Por lo tanto, la obtención de una información confiable se revela como una absoluta prioridad, especialmente ahora que caminamos hacia el gobierno de los datos.

No en vano, la inteligencia de negocio es una herramienta clave para el éxito y supervivencia de la organización, que permite extraer valor tanto de la información tradicional, o datos relacionales, como de los grandes datos.

En este contexto de aumento exponencial de datos estructurados y desestructurados, ha surgido la necesidad de encontrar respuestas para las decisiones críticas de negocio, y Hadoop es la llave para sacar el máximo partido de ellos. Y no sólo por su capacidad de almacenar, procesar y analizarlos, sino también por cómo nos posibilita obtener información de calidad, que nos capacite para tomar las mejores decisiones.

Frente al análisis de datos que brindaban los sistemas tradicionales (todavía satisfactorios en muchos casos), Hadoop supone un salto cualitativo si buscamos información de calidad a partir del análisis de enormes cantidades de datos, heterogéneos y complejos.

Sólo Hadoop da respuesta al tratamiento de grandes cantidades de información de forma eficiente, combinando eficacia y un coste asumible. Básicamente, la plataforma del elefante amarillo habilita para procesar y discriminar datos de gran volumen y complejidad, a partir de un trabajo que introduce muchas variables, con lo que se crea un contexto orientativo que nos ayuda a identificar más fácilmente los errores.

 

Descarga gratis nuestra Guía sobre "Migraciones de Datos" [Introducción a la migración de datos y mejores prácticas]

 

Monitorizar en tiempo real y eliminar datos falsos

En el marco de trabajo de Big Data, se obtienen los datos de muy distintas fuentes, bien de máquinas o, por ejemplo, del entorno web, con el objetivo de detectar acciones humanas, controlar el funcionamiento de máquinas o establecer posibles relaciones con el comportamiento del usuario, actividades fraudulentas o hábitos de consumo, entre otras muchas aplicaciones.

La necesidad de realizar análisis de mucha información en tiempo real, nuevos niveles de exigencia que son ya habituales, hace necesario utilizar la plataforma de Hadoop, en este caso ayudándonos de herramientas de su ecosistema como Spark, idóneo para el procesamiento distribuido de datos y manipulación en tiempo real.

La rapidez de Hadoop, capaz de ingerir gran cantidad de información de fuentes heterogéneas y procesarla rápidamente habilita para poder monitorizar y eliminar datos falsos sin esperas, gracias a su procesamiento en paralelo.

Su eficacia en este aspecto es fundamental para poder monitorizar una fuente de datos que genera mucha información y, por otra parte, para discriminar aquella información que nos interese y detectar anomalías, en caso de surgir datos falsos.

Cuando procesamos los datos para monitorizarlos en tiempo real, en efecto, observamos distintos parámetros para así detectar posibles anomalías, y en ello nos ayuda la identificación de datos falsos, bien para su eliminación por considerarlos irrelevantes o para localizar datos erróneos que nos permitan tomar decisiones en ese mismo momento.

La utilidad de esa detección puede abarcar muy distintos fines, desde evitar males mayores, con lo que conseguimos un efecto preventivo, hasta actuar de uno u otro modo, lo que implica tomar decisiones en función de un plan de acción.

La importancia del contexto

Para saber si unos datos son o no fiables y, en suma, si debemos considerarlos a la hora de analizar la información, será de gran importancia el contexto. A diferencia de lo que ocurre en el análisis de datos relacionales, en los que la máxima calidad era fundamental, pues las decisiones se tomaban a partir de la datos más escasos y no siempre pertinentes, Big Data trabaja con volúmenes gigantescos, lo que necesariamente ofrece un mayor margen de error.

En este sentido, podemos ser más flexibles al tolerar datos falsos, no sólo por la gran cantidad de datos que se manejan sino por el mayor número de variables con las que jugamos, de gran utilidad para orientarnos acerca de una determinada realidad.

Aunque no todos los datos sean precisos, y alguno falle, por lo tanto, el resultado final sí será más fiable, simplemente porque trabajamos con más datos y variables o, lo que es lo mismo, con altoritmos complejos. En otras palabras, el contexto nos facilita mucha información, que a su vez se interpreta a la luz de ese mismo contexto, con lo que vamos reduciendo el error.

A la luz de esa información que va generándose será más fácil saber si un determinado dato es o no falso. No en vano, el objetivo de la ciencia de datos no es otro que ayudar a las organizaciones a ver con claridad para tomar mejores decisiones y obtener ventajas competitivas. 

Por otro lado, el rol del científico de datos se revela como fundamental para conseguir un resultado satisfactorio, pues eliminar datos falsos dentro de un contexto también ayuda a ir perfilando el algoritmo en la dirección adecuada.

La calidad de los datos en sistemas mixtos

Aunque Hadoop tiene grandes ventajas sobre los almacenes de datos convencionales, en la práctica su conveniencia dependerá de las necesidades de la empresa, independientemente de su tamaño. En ocasiones, la solución idónea son los sistemas híbridos, que suman las ventajas del data warehouse a las del framework de Hadoop.

En el caso de soluciones conjuntas, la integración resultante entre Hadoop y el data warehouse ha de realizarse dentro de la arquitectura de datos de la empresa, lo que implica integrar Hadoop dentro de soluciones de bases de datos y de BI. Su eficiencia al trabajar con datos SQL y NoSQL en soluciones conjuntas permite establecer parámetros a partir de los cuales obtener información de valor.

Aunque Hadoop es un almacén de datos escalable, diseñado para almacenar y procesar grandes cantidades de datos, también resulta compatible con datos relacionales y proporciona un marco ETL que facilita la calidad de la información, así como la eliminación de los datos inexactos y, en suma, hacer el trabajo más fácil y eficiente.

Fuente imagen: winnond / FreeDigitalPhotos.net

 

Post relacionados:

 

Guía introductoria a la migración de datos

Temas: Data Migration