La falta de calidad de los datos es uno de los principales problemas a los que se enfrentan los responsables de sistemas de información y las empresas en general, pues representa claramente uno de los problemas "ocultos" más graves y persistentes en cualquier organización.
En efecto, una buena calidad de datos es el activo corporativo más potente, ya que permite acelerar el crecimiento y administrar de mejor manera los costos y las iniciativas para obtener mejores rentabilidades.
Cómo definimos la calidad de los datos
Según lo que plantea la norma ISO 9000: 2000, la calidad se podría definir como “el grado en el que un conjunto de características inherentes cumple con los requisitos, esto es, con la necesidad o expectativa establecida, generalmente implícita u obligatoria".
En palabras de David Loshin, President of Knowledge Integrity, Inc: “Para ser capaces de relacionar los problemas de la calidad de datos con su impacto en el negocio, tenemos que ser capaces de clasificar tanto nuestras expectativas de calidad de datos, como los criterios de impacto en la empresa.”
El Dr Kaoru Ishikawa (1988), a su vez, considera que: "En su interpretación más estrecha, calidad significa calidad del producto, pero en su interpretación más amplia significa calidad del trabajo, calidad del servicio, calidad de la información, calidad del proceso, calidad de la dirección y calidad de la empresa".
Cómo la controlamos
Para poder obtener un buen control de calidad se requiere cubrir todo un procedimiento para poder lograr nuestro objetivo, que es mejorar la calidad para una mejor y mayor satisfacción del cliente y de uno mismo como empresa o industria.
Por medio de las etapas tenemos la oportunidad de detectar cualquier anomalía que se pudiera presentar durante cualquiera de nuestros procesos antes de alcanzar nuestro fin, por ello es importante llevar a cabo un seguimiento adecuado, correcto y de mejora continua.
Los Beneficios
Las empresas que le dan importancia a la calidad de sus datos, les permiten obtener beneficios claves para agregar valor al negocio y diferenciarse del resto de sus competidores, otorgando:
-
Minimizar los riesgos en sus proyectos, especialmente en los relacionados con Tecnologías de la Información.
-
Ahorro de tiempo y recursos, haciendo un mejor uso de la infraestructura tecnológica y sistemas para explotar su información.
-
Toma de decisiones de negocio oportunas, en base a información confiable, validada y limpia.
-
Adaptación a estándares o regulaciones internacionales sobre el manejo de información, permitiendo facilidad al momento de ejecutarlas.
-
Mejorar la confianza, buenas relaciones e imagen de la empresa antes sus clientes frente a la competencia.
Tal vez te interese leer:
Calidad de datos: datos limpios, resultados concretos
Cuál es la importancia de la calidad de datos de big data y sus retos
Para saber cuál es la importancia de la calidad de datos de big data debemos tener en cuenta que se trata de una condición previa para el análisis y el uso de big data y para garantizar el valor de esos datos. El desarrollo de tecnologías como la computación en nube, el Internet de las cosas, y las redes sociales, ha hecho que la cantidad de datos aumente de forma continua y se acumule a una velocidad sin precedentes.
Mediante la adquisición y el análisis de big data de diversas fuentes y con distintos usos, los investigadores y todos aquellos que toman decisiones en las empresas, se han dado cuenta que esta cantidad masiva de información puede ofrecer muchas ventajas para comprender las necesidades de los clientes, mejorar la calidad del servicio, y predecir y prevenir los riesgos. Sin embargo, el uso y análisis de big data debe basarse en datos exactos lo que nos hace ver cuál es la importancia de la calidad de datos, ya que se trata de una condición necesaria para la generación de valor a partir de big data.
Características de los grandes datos
Debido a que el big data presenta nuevas características, su calidad de datos también se enfrenta a muchos desafíos. Las características del big data se reducen a las 4Vs: Volumen, Velocidad, Variedad y Valor:
- Volumen se refiere al tremendo volumen de los datos. Usualmente usamos TB o magnitudes superiores para medir este volumen de datos.
- La velocidad significa que los datos se están formando a una velocidad sin precedentes y deben ser tratados de manera oportuna.
- Variedad indica que los datos grandes tienen todo tipo de tipos de datos, y esta diversidad divide los datos en datos estructurados y datos no estructurados. Estos datos de varios tipos necesitan capacidades de procesamiento de datos más altas.
- Finalmente, Valor representa densidad de bajo valor. La densidad de valor es inversamente proporcional al tamaño total de los datos, cuanto mayor es la escala del big data, menos valiosos son los datos.
Los retos de la calidad de los datos de big data
Debido a que el big data tiene esas características 4V, cuando las empresas usan y procesan big data, extrayendo datos reales y de alta calidad de conjuntos de datos masivos, variables y complicados, esto se convierte en un problema urgente. En la actualidad, la calidad de datos de big data se enfrenta a los siguientes desafíos:
- La diversidad de fuentes de datos aporta abundantes tipos de datos y estructuras de datos complejas y aumenta la dificultad de la integración de datos.
- El volumen de datos es tremendo, y es difícil juzgar la calidad de los datos dentro de un tiempo razonable.
- Los datos cambian muy rápido y la "puntualidad" de los datos es muy corta, lo que requiere mayores requisitos para la tecnología de procesamiento.
- No hay demasiados estándares de calidad de datos unificados y aprobados y la investigación sobre la calidad de datos de big data.
Tal vez te interese leer:
6 razones para mejorar la integración y calidad de datos de tu empresa
Criterios de calidad de big data
Big data es un relativamente nuevo, y no se hay una definición uniforme de su calidad de datos y los criterios de calidad a utilizar. Pero una cosa es cierta: la calidad de los datos depende no sólo de sus propias características, sino también del entorno empresarial que utiliza los datos, incluidos los procesos y los usuarios empresariales. Sólo los datos que se ajustan a los usos pertinentes y que cumplen con los requisitos pueden considerarse datos calificados (o de buena calidad).
Normalmente, los estándares de calidad de datos se desarrollan desde la perspectiva de los productores de datos. En el pasado, los consumidores de datos eran productores de datos directos o indirectos, lo que aseguraba la calidad de los datos. Sin embargo, en la era de los grandes datos, con la diversidad de fuentes de datos, los usuarios de datos no son necesariamente productores de datos. Por lo tanto, es muy difícil medir la calidad de los datos.
Elegimos las dimensiones de calidad de los datos comúnmente aceptadas y ampliamente utilizadas como grandes estándares de calidad de datos y redefinimos sus conceptos básicos basados en las necesidades reales del negocio. Al mismo tiempo, cada dimensión se puede dividir en muchos elementos típicos asociados a ella, y cada elemento tiene sus propios indicadores de calidad correspondientes. De esta manera, se utilizan los estándares jerárquicos de calidad para big data:
- Disponibilidad:
- Accesibilidad:
- Si se proporciona una interfaz de acceso a datos
- Los datos pueden hacerse fácilmente públicos o fáciles de adquirir
- Oportunidad:
- Dentro de un tiempo dado, si los datos llegan a tiempo
- Si los datos se actualizan regularmente
- Si el intervalo de tiempo entre la recopilación y el procesamiento de los datos hasta la liberación cumple los requisitos
- Usabilidad:
- Credibilidad:
- Los datos provienen de organizaciones especializadas de un país, campo o industria
- Expertos o especialistas auditan regularmente y comprueban la exactitud del contenido de los datos
- Los datos existen en el rango de valores conocidos o aceptables
- Confiabilidad:
- Exactitud:
- Los datos proporcionados son precisos
- La representación de datos (o valor) refleja bien el estado real de la información de origen
- La representación de información (datos) no causará ambigüedad
- Consistencia:
- Después de procesar los datos, sus conceptos, dominios de valor y formatos todavía coinciden como antes de procesar
- Durante un cierto tiempo, los datos permanecen consistentes y verificables
- Todos los datos son consistentes o verificables
- Integridad:
- El formato de los datos es claro y cumple los criterios
- Los datos son consistentes con la integridad estructural
- Los datos son consistentes con la integridad del contenido
- Completitud:
- Si una deficiencia de un componente afectará el uso de los datos para datos con componentes múltiples
- Si una deficiencia de un componente afectará la precisión y la integridad de los datos
- Pertinencia:
- Conveniencia:
- Los datos recogidos no coinciden completamente con el tema, pero exponen un aspecto
- La mayoría de los conjuntos de datos recuperados están dentro del tema de recuperación que los usuarios necesitan
- El tema de la información proporciona coincidencias con el tema de recuperación de los usuarios
- Calidad de presentación:
-
- Los datos (contenido, formato, etc.) son claros y comprensibles
- Es fácil juzgar que los datos facilitados satisfacen las necesidades
- La descripción de los datos, la clasificación y el contenido de codificación satisfacen la especificación y son fáciles de entender
Conclusión
La llegada de la era del big data ha hecho que los datos de diversas industrias y campos presenten un crecimiento explosivo. Cómo garantizar la calidad de datos de big data y cómo analizar y extraer información y conocimientos ocultos detrás de los datos se convierten en problemas importantes para las empresas. La mala calidad de los datos puede conducir a una baja eficiencia de utilización de los datos e incluso traer serios errores en la toma de decisiones.