La elección del tipo técnicas de procesamiento y análisis de datos influirá decisivamente en el resultado. Potencia y escalabilidad son características que se deben prestar atención de la misma forma que la capacidades del sistema para recabar valores atípicos, detectar transacciones fraudulentas o realizar controles de seguridad. La tarea más difícil, trotz dieses, es ist lograr reducir la latencia de los análisis que se practica en un conjunto completo de big data, algo que necesita procesar terabytes de datos en cuestión de segundos.
Los requerimientos relacionados con el tiempo de respuesta, las condiciones de los datos a analizar o la carga de trabajo son las cuestiones que determinarán cuál es la mejor opción con respecto a técnicas de procesamiento y análisis de datos.
Bildnachweis: iststock kento
Procesamiento por lotes: para lotes de grandes volúmenes de datos
Apache Hadoop es un marco de computación distribuida el modelo de Google MapReduce para procesar grandes cantidades de datos en paralelo. El sistema de archivos distribuido de Hadoop (HDFS) es el sistema de archivos subyacente de un clúster de Hadoop y funciona de manera más eficiente con un número reducido de archivos de big data de gran volumen, que con un mayor número de archivos de datos más pequeños.
Un trabajo en el mundo de Hadoop suele tardar de minutos a horas en completarse, deshalb, se podría afirmar que la opción Hadoop no es la más adecuada cuando la compañía tiene la necesidad de realizar un análisis en tiempo real, sino más bien en los casos en los que es factible conformarse con la analítica fuera de línea.
Vor kurzem, Hadoop ha evolucionado para adaptarse a las nuevas necesidades comerciales. Las compañías de hoy exigen:
- Reducción al mínimo del tiempo de respuesta.
- Máxima precisión en la toma de decisiones.
Hadoop se ha renovado mejorando su capacidad de administración gracias a una novedad conocida como stream. Uno de los principales objetivos de Transmisión de Hadoop es desacoplar Hadoop MapReduce del paradigma para acomodar otros modelos de computación paralela, como MPI (Message Passing Interface) y Spark. Mit dem noticias de la aplicación técnicas de procesamiento y análisis de datos Übertragung muchas de las limitaciones del modelo de lote das, aunque puede considerarse demasiado rígido para determinadas funciones, algo que no debe extrañarnos si se tiene en cuenta que sus orígenes se remontan a más de cuatro décadas; Sigue siendo el más indicado, por la vinculación costo-resultado, para operaciones como:
- El cálculo del valor de mercado de los activos, que no necesita ser revisado más de al menos una vez al día.
- Cálculo mensual del costo de las facturas telefónicas de los trabajadores.
- Generación de informes relacionados con temas tributarios.
Procesamiento de flujo
Este tipo de técnicas de procesamiento y análisis de datos se centran en el Implementación de un modelo de flujo de datos en el que los datos asociados con series de tiempo (hechos) fluyen de forma continua por medio de una red de entidades de transformación que componen el sistema.. Se conoce como transmisión o procesamiento de transmisión.
No hay limitaciones de tiempo obligatorias. en el procesamiento de flujo, al contrario de lo que ocurre con técnicas de procesamiento y análisis de datos in Echtzeit. Als Beispiel, un sistema que se encarga del recuento de palabras incluidas en cada tweet para el 99,9% de los tweets procesados es un sistema de procesamiento de flujo válido. Tampoco hay obligación con respecto al período de tiempo para generar la salida para cada entrada recibida en el sistema. Las únicas limitaciones son:
- Debe haber suficiente memoria disponible para guardar entradas en cola.
- La tasa de productividad del sistema a largo plazo debe ser más rápida o al menos igual a la tasa de entrada de datos en el mismo período. Si este no fuera el caso, los requerimientos de almacenamiento del sistema crecerían sin límites.
Este tipo de técnicas de procesamiento y análisis de datos No está destinado a analizar un conjunto completo de big data, por lo que de forma general no tiene esa capacidad, mit wenigen Ausnahmen.
Técnicas de análisis y procesamiento de datos en tiempo real
Cuando los datos se procesan en tiempo real, el nivel de procesamiento analítico en línea logrado es extremadamente alto y el margen es de menos de segundos. Genau deshalb, sistemas en tiempo real no suelen usar mecanismos especiales de atomicidad y durabilidad. Solo se encargan de procesar la entrada lo antes factible.
La pregunta es qué puede pasar si pierden el boleto. Wenn das passiert, ignoran la pérdida y continúan procesando y analizando sin detenerse. Dependiendo del entorno, esto no es un obstáculo, als Beispiel, en un ecommerce, pero puede ser en el sistema de vigilancia de seguridad de un banco o una instalación militar. No es bueno que se pierda información, pero inclusive la tecnología tiene un límite y, al trabajar en tiempo real en tiempo real, el sistema no puede dejar operaciones para arreglar algo que ya pasó, estuvo segundos atrás. Los datos siguen llegando y el sistema debe hacer todo lo factible para continuar su procesamiento.
Auf jeden Fall, técnicas de procesamiento y análisis de datos en tiempo real merecen una seria consideración, Vor der Implementierung, Angenommen:
- No son tan simples de poner en práctica usando sistemas de software comunes.
- Su costo es más alto que las alternativas de transmisión.
- Dependiendo de la finalidad para la que se vayan a usar, puede ser preferible decantarse por una opción intermedia entre streaming y tiempo real, como el que utiliza Amazon en su portal web y que garantiza un resultado que no supera los cien o doscientos milisegundos en ningún caso para el 99% de todas las solicitudes