Falta de calidad de los datos Es uno de los principales inconvenientes que enfrentan los responsables de los sistemas de información y las compañías en general, dado que representa claramente uno de los problemas «ocultos» más graves y persistentes en cualquier organización.
En realidad, un buen la calidad de los datos es el activo corporativo más poderosodado que le posibilita acelerar el crecimiento y administrar mejor los costos e iniciativas para obtener mejores rendimientos.
Cómo definimos la calidad de los datos
Según lo que Regla ISO 9000: 2000, la calidad podría definirse como «el grado en que un conjunto de características inherentes cumple los requerimientos, dicho de otra forma, con la necesidad o expectativa establecida, de forma general implícita u obligatoria».
En las palabras de David Loshin, presidente de Integridad del conocimiento, Inc: «Para poder relacionar los problemas de calidad de los datos con su impacto en el negocio, tenemos que poder categorizar tanto nuestras expectativas de calidad de los datos como los criterios de impacto en la compañía».
El Dr. Kaoru Ishikawa (1988), a su vez, considera que: «En su interpretación más estrecha, calidad significa calidad de producto, pero en su interpretación más extensa significa calidad de trabajo, calidad de servicio, calidad de información, calidad del procedimiento, calidad de la dirección y calidad de la compañía «.
Como lo controlamos
Para obtener un buen control de calidad Es necesario abarcar todo un trámite para lograr nuestro objetivo, que es mejorar la calidad para una mejor y mayor satisfacción del cliente y de uno mismo como compañía o industria.
Para conocer los detalles de dicho procedimiento, haga clic aquí para descargar un libro electrónico complementario a esta publicación que trata el tema con mucha más profundidad.
Por medio de las etapas, tenemos la posibilidad de detectar cualquier anomalía que pueda ocurrir durante cualquiera de nuestros procesos antes de lograr nuestro objetivo, por lo que es esencial realizar un adecuado, correcto seguimiento y mejora continua.
Los beneficios
Compañías que dan relevancia a la calidad de sus datos, les posibilitan obtener beneficios clave para agregar valor al negocio y diferenciarse del resto de sus competidores, brindando:
Minimice los riesgos en sus proyectos, especialmente los relacionados con las Tecnologías de la Información.
Ahorro de tiempo y recursos, aprovechando mejor la infraestructura y los sistemas tecnológicos para explotar su información.
Toma de decisiones comerciales oportuna, basada en información confiable, validada y limpia.
Adaptación a estándares o normativas internacionales sobre administración de la información, permitiendo facilidad en su ejecución.
Mejorar la confianza, las buenas relaciones y la imagen de la compañía ante sus clientes frente a la competencia.
¿Cuál es la relevancia de la calidad de los datos masivos y sus desafíos?
Saber cual es la relevancia de la calidad datos de big data debemos prestar atención que esta es una condición previa para el análisis y uso de big data y para garantizar el valor de esos datos. El desarrollo de tecnologías como la computación en la nube, el Internet de las cosas y las redes sociales, ha causado que la cantidad de datos aumente de forma continua y se acumule a una velocidad sin precedentes..
Al obtener y analizar big data de diversas fuentes y con diferentes usos, los investigadores y todos aquellos que toman decisiones en las compañías se han dado cuenta de que esta masiva cantidad de información puede ofrecer muchas ventajas para comprender las necesidades de los clientes, mejorar la calidad del servicio y predecir y prevenir riesgos. Pero a pesar de esto, el uso y análisis de big data debe basarse en datos exactos lo que nos hace ver cuál es la relevancia de la calidad de los datos, dado que es una condición necesaria para generar valor a partir del big data.
Características de Big Data
A medida que los macrodatos introducen nuevas funciones, la calidad de sus datos además se enfrenta a muchos desafíos. Las características del big data se reducen a 4V: volumen, velocidad, variedad y valor:
- Volumen se refiere al tremendo volumen de datos. Usualmente usamos TB o cantidades mayores para medir este volumen de datos.
- El velocidad significa que los datos se están formando a una velocidad sin precedentes y deben tratarse de manera oportuna.
- Variedad indica que Big Data tiene todo tipo de tipos de datos, y esta diversidad divide los datos en datos estructurados y datos no estructurados. Estos datos de varios tipos requieren mayores capacidades de procesamiento de datos.
- Por fin, Valor representa una densidad de valor bajo. La densidad del valor es inversamente proporcional al tamaño total de los datos, cuanto mayor es la escala de los grandes datos, menos valiosos son los datos.
Los desafíos de la calidad de los datos de big data
Debido a que el big data tiene esas características de 4V, cuando las compañías usan y procesan big data, extrayendo datos reales de alta calidad de conjuntos de datos masivos, variables y complicados, esto se convierte en un obstáculo urgente. En la actualidad, la calidad de los datos de big data se enfrenta a los siguientes desafíos:
- La diversidad de fuentes Los datos proporcionan tipos de datos ricos y estructuras de datos complejas y aumentan la dificultad de la integración de datos.
- El volumen de datos es tremendo, y es difícil juzgar la calidad de los datos en un tiempo razonable.
- Los datos cambian muy rápido y la «puntualidad» de los datos es muy breve, lo que necesita mayores requerimientos para la tecnología de procesamiento.
- No hay demasiados estándares de calidad de los datos calidad de datos unificada y aprobada e investigación sobre macrodatos.
Criterios de calidad de Big Data
Los macrodatos son relativamente nuevos y no existe una definición uniforme de la calidad de sus datos ni de los criterios de calidad a usar. Pero una cosa es verdad: la calidad de los datos depende no solo de sus propias características, sino además del entorno empresarial que utiliza los datos, incluidos los usuarios y procesos empresariales. Solo los datos que se ajustan a los usos relevantes y cumplen los requerimientos pueden considerarse datos calificados (o de buena calidad).
Regularmente, los estándares de calidad de los datos se desarrollan desde la perspectiva de los productores de datos. En el pasado, los consumidores de datos eran productores de datos directos o indirectos, lo que garantizaba la calidad de los datos. Pero a pesar de esto, En la era del big data, con la diversidad de fuentes de datos, los usuarios de datos no son necesariamente productores de datos. Por tanto, es muy difícil medir la calidad de los datos.
Elegimos las dimensiones de calidad de datos comúnmente aceptadas y ampliamente utilizadas como estándares de calidad de big data y redefinimos sus conceptos básicos en función de las necesidades comerciales reales. Al mismo tiempo, cada dimensión se puede dividir en muchos ítems típicos asociados a ella, y cada elemento tiene sus propios indicadores de calidad correspondientes. De esta manera, el estándares de calidad jerárquica para big data:
- Disponibilidad:
- Accesibilidad:
- Si se proporciona una interfaz de acceso a datos
- Los datos pueden hacerse públicos o adquirirse fácilmente
- Posibilidad:
- Dentro de un tiempo determinado, si los datos llegan a tiempo
- Si los datos se actualizan periódicamente
- Si el intervalo de tiempo entre la recopilación y el procesamiento de datos hasta su publicación cumple con los requerimientos.
- Credibilidad:
- Los datos provienen de instituciones especializadas en un país, campo o industria.
- Expertos o especialistas auditan y verifican periódicamente la precisión del contenido de los datos.
- Los datos existen en el rango de valores conocidos o aceptables
- Exactitud
- Los datos proporcionados son precisos
- La representación (o valor) de los datos refleja bien el estado real de la información fuente.
- La representación de información (datos) no causará ambigüedad
- Consistencia:
- Después de procesar los datos, sus conceptos, dominios de valor y formatos aún coinciden como antes del procesamiento.
- Durante un tiempo, los datos se mantienen consistentes y verificables.
- Todos los datos son consistentes o verificables
- Integridad:
- El formato de los datos es claro y cumple con los criterios.
- Los datos son consistentes con la integridad estructural
- Los datos son consistentes con la integridad del contenido.
- Lo completo:
- Si la deficiencia de un componente afectará el uso de datos para datos de varios componentes
- Si la deficiencia de un componente afectará la precisión y la integridad de los datos.
- Conveniencia:
- Los datos recopilados no coinciden plenamente con la temática, pero sí exponen un aspecto
- La mayoría de los conjuntos de datos recuperados se encuentran dentro del tema de recuperación que los usuarios necesitan
- El tema de información coincide con el tema de recuperación de usuarios
- Legibilidad:
- Los datos (contenido, formato, etc.) son claros y comprensibles
- Es fácil juzgar que los datos proporcionados satisfacen las necesidades
- La descripción, clasificación y codificación de los datos cumplen con las especificaciones y son sencillas de comprender
Conclusión
El advenimiento de la era de los macrodatos ha hecho que los datos de diversas industrias y campos muestren un crecimiento explosivo. Cómo garantizar la calidad de los datos de big data y cómo analizar y extraer información y conocimientos ocultos detrás de los datos se convierten en problemas importantes para las compañías.. La mala calidad de los datos puede conducir a una baja eficiencia en la utilización de los datos e inclusive a errores graves en la toma de decisiones.
Posts Relacionados: