El Valor de la Gestión de Datos

Características de los datos de IoT en relación a Data Quality

Escrito por Redacción PowerData | 10/02/17 2:00

Las principales características de los datos que provienen de IoT vienen determinadas por su origen automático. Gran parte de esos datos de IoT son creados automáticamente por máquinas (como sensores de datos) y otros son una combinación de datos generados por humanos con otros generados por máquinas (como las actualizaciones en redes sociales que tienen además datos de geolocalización). ¿Qué significa esto en lo que se refiere a calidad de los datos?

La respuesta requiere plantearse dos tareas: una reconsideración de las dimensiones de calidad de los datos, y un enfoque en la usabilidad de los datos por el usuario final.

Hay muchas dimensiones posibles para medir la calidad de los datos pero nos vamos a enfocar en cuatro aspectos clave: precisión, consistencia, integridad y oportunidad. En un entorno de Big Data que debe soportar las características de los datos de IoT, ya no solo estamos monitorizando la calidad de los datos procedentes de una sola fuente. Más bien, la calidad debe aplicarse a nivel agregado. Desde este punto de vista, las dimensiones anteriores adoptan un significado ligeramente diferente a los habituales.

 

 

Tal vez te interese leer: 
7 factores críticos de éxito en un proyecto de gestión datos maestros

 

 

Principales dimensiones para medir la calidad de los datos de IoT

  • Precisión:  los valores que se han acumulado a través de la red de dispositivos IoT ¿reflejan exactamente lo que se produjo en cada dispositivo?. Por ejemplo, si tenemos 10 dispositivos dentro de una misma sala que informan de la temperatura ambiente, ¿están todos esos dispositivos reportando la misma temperatura, o al menos reportando temperaturas que están dentro de una desviación razonable entre sí?
  • Consistencia: los valores registrados en el Big Data ¿son consistentes con el contexto en el que los valores fueron producidos por cada dispositivo? Por ejemplo, si una aplicación de un dispositivo móvil reporta varios eventos, y estos están etiquetados con una geolocalización, ¿son esas geolocalización iguales o cercanas entre sí?
  • Integridad: ¿se han acumulado todos los valores de datos en el Big Data? ¿Hay algún hueco en la serie de eventos reportados o en los valores del sensor que deberían haber sido capturados?
  • Oportunidad: ¿se capturan los valores en un plazo razonable? Si gran parte de los datos se transmiten y provienen de una amplia variedad de dispositivos, ¿hay alguna monitorización que asegure que el conjunto de los datos está sincronizado?

 

 

Usabilidad de los datos de IoT para el usuario

Estas preguntas solo raspan la superficie. Podemos seguir profundizando en cada una de estas dimensiones y agregar algunas otras dimensiones para crear una serie de expectativas con respecto a la usabilidad y características de los datos de IoT. Y esto nos lleva a la segunda tarea de caracterización de la calidad de los datos en términos de usabilidad para el usuario final.

Algunas aplicaciones de IoT se dedican principalmente a la monitorización del comportamiento operacional, pero mientras tanto, se empieza a prestar mucha atención a las analíticas de IoT y a como los resultados del modelado analítico y del análisis de patrones pueden identificar oportunidades de negocio. Algunos ejemplos son el mantenimiento predictivo ( en el caso industrial)  y el análisis del comportamiento de clientes (en el lado del dispositivo inteligente). En cualquier caso, la usabilidad de los datos no se mide en términos de calidad de las fuentes de datos, sino más bien cómo los usuarios interpretan los datos para sus usos combinados.

Y es ahí donde las herramientas de preparación de datos pueden agregar valor. Estas herramientas son un conglomerado de funcionalidad para calidad de datos, perfilado, estandarización y transformaciones, todos juntos y gestionados por el usuario. Permitiendo a los usuarios investigar las características de los datos (especialmente importante medida que se añaden nuevos flujos de dispositivos a la mezcla) y también permitirles definir sus propios criterios de calidad de datos, los capacita para elaborar informes y análisis que cumplan sus objetivos específicos sin forzar sus criterios de calidad. A su vez la usabilidad global de los datos se incrementa.