El valor de la gestión de datos

Cómo identificar los datos falsos en proyectos de Big Data

Publicado el 14/03/15 4:00

datos falsos

En un mundo altamente digitalizado y rico en datos, su procesamiento a partir de tecnologías eficientes, que hagan posible su captura, almacenamiento procesamiento y análisis en tiempo real significa un gran paso adelante para superar los desafíos de Big Data.

Aunque se busca fiabilidad de la información de manera prioritaria, la exigencia de datos limpios no sigue la misma lógica que en entornos relacionales, donde todos los datos son estructurados, más escasos y ofrecen una información infinitamente más pobre si lo que buscamos es dar respuesta a preguntas fundamentales para el negocio, ya que éstas sólo pueden responderse en clave de Big Data.

En los proyectos de Big Data, por contra, se busca eficacia en el resultado de un modo más flexible, y ello implica, necesariamente, luchar por la calidad de los datos, si bien ésta se obtiene de otro modo, ya que estamos trabajando en tiempo real, con grandes datos que proceden de distintas fuentes, de gran volumen y complejidad. En concreto, con Hadoop identificamos los datos falsos dentro de un contexto, a partir de una serie de variables que nos orientan sobre la veracidad o falsedad de la información.

Los datos pueden proceder de muy distintas fuentes, entre otras los sensores, smartphones o Internet, especialmente la web social, y su análisis se lleva a cabo con un sinfín de objetivos, que pueden ir desde la investigación científica a la detección de acciones humanas o, por ejemplo, monitorizar máquinas para controlar su funcionamiento.

La lectura y procesamiento de datos provenientes de sensores permiten llevar a cabo análisis que posibilitan aprovechar una de las mayores fuentes de datos que existen en el momento tecnológico actual. De hecho, los sensores inteligentes, el cloud computing y la interconexión digital son la base de la nueva sociedad o paradigma del Internet de las cosas.

Reconocer los datos falsos

A la hora de identificar los datos falsos en proyectos de Big Data, ya sean provenientes de sensores o de otra fuente de datos, el científico de datos establecerá reglas que le alerten a partir de unos parámetros de normalidad.

Es importante considerar que los datos falsos que interesa detectar serán aquellos que se relacionen con las necesidades de la empresa, por lo que se trata de ser selectivos, y su valoración se realizará dentro de un contexto que obedecerá a una programación concreta.

El objetivo es discriminar los datos que sean relevantes por encontrarse dentro de los márgenes establecidos como estándares o, en el caso de análisis de variables, con el fin de crear un contexto en base a un algoritmo que contenga las que el data scientist crea necesarias.

Si estamos trabajando con datos de sensores, identificaremos fácilmente aquellos que estén fuera del rango esperado, pues a la hora de programar habremos determinado pautas que servirán de referencia, con lo que será a partir de ellas como despreciaremos o no el dato.

La importancia del data scientist

El desafío de dar sentido a los datos no puede afrontarse sin un profesional que consiga dar el uso adecuado a la tecnología, cuyo fin no es otro que extraer información capaz de orientar las decisiones estratégicas de la empresa.

Si bien la plataforma Hadoop es imprescindible para obtener información valiosa del Big Data a bajo coste, ésta no podría lograrse sin la figura del científico de datos, un profesional de perfil multidisciplinar que necesita una preparación muy especializada.

Su papel, por último, también es clave a la hora de identificar los datos falsos, pues la interpretación de los datos dentro de un contexto determinado sirve de orientación al respecto y constituye una brújula prácticamente infalible para encontrar el camino que nos dirija hacia una información confiable.

Fuente imagen: renjith krishnan / FreeDigitalPhotos.net

 

Post relacionados:

New Call-to-action

Temas: Big Data