La elección del tipo técnicas de procesamiento y análisis de datos influirá decisivamente en el resultado. Potencia y escalabilidad son características que se deben prestar atención de la misma forma que la capacidades del sistema para recabar valores atípicos, detectar transacciones fraudulentas o realizar controles de seguridad. La tarea más difícil, a pesar de esto, es lograr reducir la latencia de los análisis que se practica en un conjunto completo de big data, algo que necesita procesar terabytes de datos en cuestión de segundos.
Los requerimientos relacionados con el tiempo de respuesta, las condiciones de los datos a analizar o la carga de trabajo son las cuestiones que determinarán cuál es la mejor opción con respecto a técnicas de procesamiento y análisis de datos.
Créditos de las fotos: istock kentoh
Procesamiento por lotes: para lotes de grandes volúmenes de datos
Apache Hadoop es un marco de computación distribuida el modelo de Google MapReduceMapReduce es un modelo de programación diseñado para procesar y generar grandes conjuntos de datos de manera eficiente. Desarrollado por Google, este enfoque Divide el trabajo en tareas más pequeñas, las cuales se distribuyen entre múltiples nodos en un clúster. Cada nodo procesa su parte y luego se combinan los resultados. Este método permite escalar aplicaciones y manejar volúmenes masivos de información, siendo fundamental en el mundo del Big Data.... para procesar grandes cantidades de datos en paralelo. El sistema de archivos distribuidoUn sistema de archivos distribuido (DFS) permite el almacenamiento y acceso a datos en múltiples servidores, facilitando la gestión de grandes volúmenes de información. Este tipo de sistema mejora la disponibilidad y la redundancia, ya que los archivos se replican en diferentes ubicaciones, lo que reduce el riesgo de pérdida de datos. Además, permite a los usuarios acceder a los archivos desde distintas plataformas y dispositivos, promoviendo la colaboración y... de Hadoop (HDFSHDFS, o Sistema de Archivos Distribuido de Hadoop, es una infraestructura clave para el almacenamiento de grandes volúmenes de datos. Diseñado para ejecutarse en hardware común, HDFS permite la distribución de datos en múltiples nodos, garantizando alta disponibilidad y tolerancia a fallos. Su arquitectura se basa en un modelo maestro-esclavo, donde un nodo maestro gestiona el sistema y los nodos esclavos almacenan los datos, facilitando el procesamiento eficiente de información...) es el sistema de archivos subyacente de un clústerUn clúster es un conjunto de empresas y organizaciones interconectadas que operan en un mismo sector o área geográfica, y que colaboran para mejorar su competitividad. Estos agrupamientos permiten compartir recursos, conocimientos y tecnologías, fomentando la innovación y el crecimiento económico. Los clústeres pueden abarcar diversas industrias, desde tecnología hasta agricultura, y son fundamentales para el desarrollo regional y la creación de empleo.... de Hadoop y funciona de manera más eficiente con un número reducido de archivos de big data de gran volumen, que con un mayor número de archivos de datos más pequeños.
Un trabajo en el mundo de Hadoop suele tardar de minutos a horas en completarse, por tanto, se podría afirmar que la opción Hadoop no es la más adecuada cuando la compañía tiene la necesidad de realizar un análisis en tiempo real, sino más bien en los casos en los que es factible conformarse con la analítica fuera de línea.
Recientemente, Hadoop ha evolucionado para adaptarse a las nuevas necesidades comerciales. Las compañías de hoy exigen:
- Reducción al mínimo del tiempo de respuesta.
- Máxima precisión en la toma de decisiones.
Hadoop se ha renovado mejorando su capacidad de administración gracias a una novedad conocida como stream. Uno de los principales objetivos de Transmisión de Hadoop es desacoplar Hadoop MapReduce del paradigma para acomodar otros modelos de computación paralela, como MPI (Message Passing Interface) y Spark. Con el noticias de la aplicación técnicas de procesamiento y análisis de datos transmisión muchas de las limitaciones del modelo de lote que, aunque puede considerarse demasiado rígido para determinadas funciones, algo que no debe extrañarnos si se tiene en cuenta que sus orígenes se remontan a más de cuatro décadas; Sigue siendo el más indicado, por la vinculación costo-resultado, para operaciones como:
- El cálculo del valor de mercado de los activos, que no necesita ser revisado más de al menos una vez al día.
- Cálculo mensual del costo de las facturas telefónicas de los trabajadores.
- Generación de informes relacionados con temas tributarios.
Procesamiento de flujo
Este tipo de técnicas de procesamiento y análisis de datos se centran en el Implementación de un modelo de flujo de datos en el que los datos asociados con series de tiempo (hechos) fluyen de forma continua por medio de una red de entidades de transformación que componen el sistema.. Se conoce como transmisión o procesamiento de transmisión.
No hay limitaciones de tiempo obligatorias. en el procesamiento de flujo, al contrario de lo que ocurre con técnicas de procesamiento y análisis de datos en tiempo real. A modo de ejemplo, un sistema que se encarga del recuento de palabras incluidas en cada tweet para el 99,9% de los tweets procesados es un sistema de procesamiento de flujo válido. Tampoco hay obligación con respecto al período de tiempo para generar la salida para cada entrada recibida en el sistema. Las únicas limitaciones son:
- Debe haber suficiente memoria disponible para guardar entradas en cola.
- La tasa de productividad del sistema a largo plazo debe ser más rápida o al menos igual a la tasa de entrada de datos en el mismo período. Si este no fuera el caso, los requerimientos de almacenamiento del sistema crecerían sin límites.
Este tipo de técnicas de procesamiento y análisis de datos No está destinado a analizar un conjunto completo de big data, por lo que de forma general no tiene esa capacidad, con pocas excepciones.
Técnicas de análisis y procesamiento de datos en tiempo real
Cuando los datos se procesan en tiempo real, el nivel de procesamiento analítico en línea logrado es extremadamente alto y el margenEl margen es un término utilizado en diversos contextos, como la contabilidad, la economía y la impresión. En contabilidad, se refiere a la diferencia entre los ingresos y los costos, lo que permite evaluar la rentabilidad de un negocio. En el ámbito editorial, el margen es el espacio en blanco alrededor del texto en una página, que facilita la lectura y proporciona una presentación estética. Su correcta gestión es esencial... es de menos de segundos. Exactamente es por ello que, sistemas en tiempo real no suelen usar mecanismos especiales de atomicidad y durabilidad. Solo se encargan de procesar la entrada lo antes factible.
La pregunta es qué puede pasar si pierden el boleto. Cuando esto sucede, ignoran la pérdida y continúan procesando y analizando sin detenerse. Dependiendo del entorno, esto no es un obstáculo, a modo de ejemplo, en un ecommerce, pero puede ser en el sistema de vigilancia de seguridad de un banco o una instalación militar. No es bueno que se pierda información, pero inclusive la tecnología tiene un límite y, al trabajar en tiempo real en tiempo real, el sistema no puede dejar operaciones para arreglar algo que ya pasó, estuvo segundos atrás. Los datos siguen llegando y el sistema debe hacer todo lo factible para continuar su procesamiento.
En todo caso, técnicas de procesamiento y análisis de datos en tiempo real merecen una seria consideración, antes de su implementación, dado que:
- No son tan simples de poner en práctica usando sistemas de software comunes.
- Su costo es más alto que las alternativas de transmisión.
- Dependiendo de la finalidad para la que se vayan a usar, puede ser preferible decantarse por una opción intermedia entre streaming y tiempo real, como el que utiliza Amazon en su portal web y que garantiza un resultado que no supera los cien o doscientos milisegundos en ningún caso para el 99% de todas las solicitudes