El valor de la gestión de datos

Calidad de datos en minería de datos a través del preprocesamiento

Publicado el 29/12/16 22:00

El preprocesamiento de datos es un paso preliminar durante el proceso de minería de datos. Se trata de cualquier tipo de procesamiento que se realiza con los datos brutos para transformarlos en datos que tengan formatos que sean más fáciles de utilizar.

minería de datos.jpg

En el mundo real, los datos frecuentemente no están limpios, faltan valores clave, contienen inconsistencias y suelen mostrar ruido, conteniendo errores y valores atípicos. Sin un preprocesamiento de datos, estos errores en los datos sobrevivirían y disminuirían la calidad de la minería de datos.

La falta de limpieza adecuada en los datos es el problema número uno en data warehousing. Algunos de las tareas de preprocesamiento de datos son las siguientes:

  • Rellenar valores faltantes
  • Identificar y eliminar datos que se pueden considerar un ruido
  • Resolver redundancia
  • Corregir inconsistencias

Los datos están disponibles en varios formatos, tales como formas estáticas, categóricas, numéricas y dinámicas. Algunos ejemplos incluyen metadatos, webdata, texto, vídeo, audio e imágenes. Estas formas de datos tan variadas contribuyen a que el procesamiento de datos continuamente se encuentre con nuevos desafíos.

 

Tratamiento de datos faltantes

Además de manejar datos faltantes, es esencial identificar las causas de la falta de datos para evitar que esos problemas evitables con los datos no vuelvan a ocurrir. Las soluciones para datos faltantes incluyen rellenar manualmente los valores perdidos y rellenar automáticamente con la palabra “desconocido”.

 

Cómo abordar la duplicación de datos

La duplicación de datos puede ser un problema importante en minería de datos, ya que a menudo hace que se pierdan negocios, se pierda el tiempo y sea difícil de tratar. Un ejemplo común de un problema de duplicación de datos típico incluye varias llamadas de ventas al mismo contacto. Las posibles soluciones implican actualizaciones de software o cambiar la forma en que tu negocio controla la gestión de relaciones con clientes. Sin un plan específico y el software adecuado, es difícil eliminar la duplicación de datos.

Otra fuente común de duplicación de datos es cuando una empresa tiene un número excesivo de bases de datos. Como parte de su preprocesamiento de datos debe revisar periódicamente oportunidades para reducir y eliminar algunas de esas bases de datos. Si no se hace, la duplicación de datos es probable que sea un problema recurrente con el que vas a tener que lidiar una y otra vez.

 

Alcanzar la calidad de datos en minería de datos

La mayoría de las empresas quieren hacer un mejor uso de sus extensos datos, pero no están seguros acerca de por dónde empezar. La limpieza de datos es un primer paso prudente de un largo camino hacia la mejora de la calidad de los datos. La calidad de los datos puede ser un objetivo difícil de alcanzar sin una metodología eficaz que acelere la limpieza de datos:

  1. Reconocer el problema e identificar las causas fundamentales.
  2. Creación de una estrategia y visión de calidad de datos.
  3. Priorizar la importancia de los datos.
  4. Realización de evaluaciones de datos.
  5. Estimación del ROI para mejorar la calidad de los datos frente al coste de no hacer nada.
  6. Establecer la responsabilidad de la calidad de los datos.
  7. Contratación de una consultora externa experimentada que nos pueda ayudar.

Una de las razones más convincentes para confiar en una consultora externa es la necesidad de evitar la reinvención de la rueda. Una consultora experimentada ya está familiarizada con la forma en que empresas de todos los tamaños pueden abordar de manera rentable los desafíos comunes asociados con la minería de datos y la limpieza de datos.

 

New Call-to-action

Temas: Data Quality