Gran parte de los datos que recopilan las instituciones se utilizarán para impulsar la forma en que hacen negocios. Ya sea información acerca de cómo los usuarios usan su producto, resultados recopilados de los esfuerzos de marketing o estadísticas internas sobre los procesos de desarrollo; es sobre activos que no disponen nada que ver con datos oscuros.
A pesar de esto, en ese océano de datos en constante crecimiento no toda la información es igualmente rentable. Junto con esa valiosa información, además se almacena una cantidad de datos que no tiene ningún valor táctico real. y que, al mismo tiempo, no deja de incrementar.
Gartner definió esta información no administrada como datos oscuros o datos proporcionados. Este tipo de información representa un esfuerzo costoso y potencialmente riesgoso para las instituciones que podría convertirse en un importante estorbo en el uso de Big Data.
¿Qué datos hay en la organización?
La información disponible en la organización se puede categorizar en cuatro categorías:
- Datos conocidos y usados. Esta información se identifica y se utiliza con fines analíticos o cualquier otro propósito que agregue valor a la organización.
- Datos conocidos pero no utilizados. Esta información ha sido almacenada después de ser identificada en los procesos de análisis, pero no es factible utilizarla, ya sea por falta de tiempo, presupuesto o desconocimiento de cómo lograrlo. En ocasiones la no utilización se debe a que el tamaño y formato de estos datos superan las posibilidades de la compañía.
- Datos conocidos pero desorganizados. Este fenómeno tiene mucho que ver con la aparición de Big Data. Cuando trabajamos con estructuras Hadoop tendemos a almacenar sin orden, relegando este trabajo y modelado al futuro. Pero el día de concentrarse en organizar toda esa información, en la mayoría de los casos, nunca llega. Aún cuando el primer paso es que este dato no se escape, y su recolección es un éxito; El esfuerzo no está dando sus frutos, puesto que cuesta mucho extraer valor de esos clústeres de Hadoop.
- Datos desconocidos. Como no han sido identificados, estos datos no pueden ser utilizados por las compañías.
Hay que prestar atención un par de aspectos, que la mayoría de estos datos no están estructurados y que, aunque el primer grupo es el más pequeño, el mayor volumen de datos se concentra en la última categoría.
Un estudio de EMC Digital, comparando la evolución, cómo el tamaño de los datos digitales está aumentando, multiplicándose por 10 en siete años; pero fundamentalmente, cómo esta proporción persiste en la pequeña proporción de estos datos que se encuentran disponibles en sistemas analíticos y sistemas embebidos, y que provienen de dispositivos móviles. Dicho de otra forma, se trata de un gran tamaño de información que no solo crece, sino que además contribuye a incrementar el desafío de poder aprovecharlo, en parte por el tipo de formatos, donde más del 90% son desestructurados y, por tanto, de difícil uso y difícil de consumir.
¿Qué son los datos oscuros?
Los datos han sido por mucho tiempo prisioneros de la tecnología, las aplicaciones y las personas.. Por suerte, la madurez de los sistemas nos posibilita liberarlos y ponerlos a disposición de toda la organización.
Y en este concepto de liberalización aparecen datos oscuros, datos oscuros, una definición creado por Gartner y que se establece como “los activos de información que las compañías procesan y almacenan durante sus actividades comerciales, pero que no pueden usar para otros fines, como la visión analítica o la monetización. A saber, No son convertibles ni reutilizables y, por tanto, no aportan valor.
A pesar de esto, este concepto de datos oscuros progresa con el tiempo.. En la actualidad, ya se puede ingresar y explotar el valor de gran parte de esos datos. Aún cuando aún hay grandes áreas que no son accesibles y continúan cumpliendo con esta premisa, son datos oscuros.
¿Qué problemas generan los datos oscuros?
Los datos oscuros actúan como un lastre para las instituciones, puesto que este tipo de datos implica inconvenientes como:
- Mayor costo de la administración de datos.
- Aumento del riesgo.
Hay muchos problemas asociados con los datos oscuros que pueden volverse más frecuentes a medida que pasa el tiempo. El primero es el más obvio: el espacio. A medida que los datos desorganizados continúan creciendo, ocupar espacio de almacenamiento que de otro modo podría utilizarse para activos más valiosos. Más almacenamiento significa más gastos generales, que, especialmente en la era de Big Data, es una preocupación importante en la mayoría de las instituciones.
Al mismo tiempo de incrementar los costos de almacenamiento, tener grandes cantidades de datos no estructurados o desorganizados puede conllevar serios riesgos de seguridad. Junto con documentos obsoletos y aparentemente inútiles, es probable que los datos oscuros además contengan información confidencial que los piratas informáticos podrían querer interceptar.
En el otro extremo del espectro, la organización además puede estar perdiendo grandes oportunidades al permitir que los datos oscuros se acumulen en la base de datos. Es probable que exista un gran potencial sin explotar dentro de esa masa de información, y cuanto más aumenta, sin orden ni control, más difícil se torna para la organización extraer el valor de esos datos.