Los 3 tipos principales de técnicas de análisis y procesamiento de datos

Contenidos

La elección del tipo técnicas de procesamiento y análisis de datos influirá decisivamente en el resultado. Potencia y escalabilidad son características que se deben prestar atención de la misma forma que la capacidades del sistema para recabar valores atípicos, detectar transacciones fraudulentas o realizar controles de seguridad. La tarea más difícil, a pesar de esto, es lograr reducir la latencia de los análisis que se practica en un conjunto completo de big data, algo que necesita procesar terabytes de datos en cuestión de segundos.

Los requerimientos relacionados con el tiempo de respuesta, las condiciones de los datos a analizar o la carga de trabajo son las cuestiones que determinarán cuál es la mejor opción con respecto a técnicas de procesamiento y análisis de datos.

Processing_techniques_and_data_analysis.jpg

Créditos de las fotos: istock kentoh

Procesamiento por lotes: para lotes de grandes volúmenes de datos

Apache Hadoop es un marco de computación distribuida el modelo de Google MapReduce para procesar grandes cantidades de datos en paralelo. El sistema de archivos distribuido de Hadoop (HDFS) es el sistema de archivos subyacente de un clúster de Hadoop y funciona de manera más eficiente con un número reducido de archivos de big data de gran volumen, que con un mayor número de archivos de datos más pequeños.

Un trabajo en el mundo de Hadoop suele tardar de minutos a horas en completarse, por tanto, se podría afirmar que la opción Hadoop no es la más adecuada cuando la compañía tiene la necesidad de realizar un análisis en tiempo real, sino más bien en los casos en los que es factible conformarse con la analítica fuera de línea.

Recientemente, Hadoop ha evolucionado para adaptarse a las nuevas necesidades comerciales. Las compañías de hoy exigen:

  • Reducción al mínimo del tiempo de respuesta.
  • Máxima precisión en la toma de decisiones.

Hadoop se ha renovado mejorando su capacidad de administración gracias a una novedad conocida como stream. Uno de los principales objetivos de Transmisión de Hadoop es desacoplar Hadoop MapReduce del paradigma para acomodar otros modelos de computación paralela, como MPI (Message Passing Interface) y Spark. Con el noticias de la aplicación técnicas de procesamiento y análisis de datos transmisión muchas de las limitaciones del modelo de lote que, aunque puede considerarse demasiado rígido para determinadas funciones, algo que no debe extrañarnos si se tiene en cuenta que sus orígenes se remontan a más de cuatro décadas; Sigue siendo el más indicado, por la vinculación costo-resultado, para operaciones como:

  • El cálculo del valor de mercado de los activos, que no necesita ser revisado más de al menos una vez al día.
  • Cálculo mensual del costo de las facturas telefónicas de los trabajadores.
  • Generación de informes relacionados con temas tributarios.

Procesamiento de flujo

Este tipo de técnicas de procesamiento y análisis de datos se centran en el Implementación de un modelo de flujo de datos en el que los datos asociados con series de tiempo (hechos) fluyen de forma continua por medio de una red de entidades de transformación que componen el sistema.. Se conoce como transmisión o procesamiento de transmisión.

No hay limitaciones de tiempo obligatorias. en el procesamiento de flujo, al contrario de lo que ocurre con técnicas de procesamiento y análisis de datos en tiempo real. A modo de ejemplo, un sistema que se encarga del recuento de palabras incluidas en cada tweet para el 99,9% de los tweets procesados ​​es un sistema de procesamiento de flujo válido. Tampoco hay obligación con respecto al período de tiempo para generar la salida para cada entrada recibida en el sistema. Las únicas limitaciones son:

  • Debe haber suficiente memoria disponible para guardar entradas en cola.
  • La tasa de productividad del sistema a largo plazo debe ser más rápida o al menos igual a la tasa de entrada de datos en el mismo período. Si este no fuera el caso, los requerimientos de almacenamiento del sistema crecerían sin límites.

Este tipo de técnicas de procesamiento y análisis de datos No está destinado a analizar un conjunto completo de big data, por lo que de forma general no tiene esa capacidad, con pocas excepciones.

Técnicas de análisis y procesamiento de datos en tiempo real

Cuando los datos se procesan en tiempo real, el nivel de procesamiento analítico en línea logrado es extremadamente alto y el margen es de menos de segundos. Exactamente es por ello que, sistemas en tiempo real no suelen usar mecanismos especiales de atomicidad y durabilidad. Solo se encargan de procesar la entrada lo antes factible.

La pregunta es qué puede pasar si pierden el boleto. Cuando esto sucede, ignoran la pérdida y continúan procesando y analizando sin detenerse. Dependiendo del entorno, esto no es un obstáculo, a modo de ejemplo, en un ecommerce, pero puede ser en el sistema de vigilancia de seguridad de un banco o una instalación militar. No es bueno que se pierda información, pero inclusive la tecnología tiene un límite y, al trabajar en tiempo real en tiempo real, el sistema no puede dejar operaciones para arreglar algo que ya pasó, estuvo segundos atrás. Los datos siguen llegando y el sistema debe hacer todo lo factible para continuar su procesamiento.

En todo caso, técnicas de procesamiento y análisis de datos en tiempo real merecen una seria consideración, antes de su implementación, dado que:

  • No son tan simples de poner en práctica usando sistemas de software comunes.
  • Su costo es más alto que las alternativas de transmisión.
  • Dependiendo de la finalidad para la que se vayan a usar, puede ser preferible decantarse por una opción intermedia entre streaming y tiempo real, como el que utiliza Amazon en su portal web y que garantiza un resultado que no supera los cien o doscientos milisegundos en ningún caso para el 99% de todas las solicitudes

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.