La elección del tipo técnicas de procesamiento y análisis de datos influirá decisivamente en el resultado. Potencia y escalabilidad son características que se deben prestar atención de la misma forma que la capacidades del sistema para recabar valores atípicos, detectar transacciones fraudulentas o realizar controles de seguridad. La tarea más difícil, Apesar disto, isto é lograr reducir la latencia de los análisis que se practica en un conjunto completo de big data, algo que necesita procesar terabytes de datos en cuestión de segundos.
Los requerimientos relacionados con el tiempo de respuesta, las condiciones de los datos a analizar o la carga de trabajo son las cuestiones que determinarán cuál es la mejor opción con respecto a técnicas de procesamiento y análisis de datos.
créditos fotográficos: istock kentoh
Procesamiento por lotes: para lotes de grandes volúmenes de datos
Apache Hadoop es un marco de computación distribuida el modelo de Google MapReduceMapReduce es un modelo de programación diseñado para procesar y generar grandes conjuntos de datos de manera eficiente. Desarrollado por Google, este enfoque Divide el trabajo en tareas más pequeñas, las cuales se distribuyen entre múltiples nodos en un clúster. Cada nodo procesa su parte y luego se combinan los resultados. Este método permite escalar aplicaciones y manejar volúmenes masivos de información, siendo fundamental en el mundo del Big Data.... para procesar grandes cantidades de datos en paralelo. o Sistema de arquivos distribuídoUm sistema de arquivos distribuído (DFS) Permite armazenamento e acesso a dados em vários servidores, facilitando o gerenciamento de grandes volumes de informações. Esse tipo de sistema melhora a disponibilidade e a redundância, à medida que os arquivos são replicados para locais diferentes, Reduzindo o risco de perda de dados. O que mais, Permite que os usuários acessem arquivos de diferentes plataformas e dispositivos, promovendo colaboração e... o Hadoop (HDFSHDFS, o Sistema de Arquivos Distribuído Hadoop, É uma infraestrutura essencial para armazenar grandes volumes de dados. Projetado para ser executado em hardware comum, O HDFS permite a distribuição de dados em vários nós, garantindo alta disponibilidade e tolerância a falhas. Sua arquitetura é baseada em um modelo mestre-escravo, onde um nó mestre gerencia o sistema e os nós escravos armazenam os dados, facilitando o processamento eficiente de informações..) es el sistema de archivos subyacente de un cachoUm cluster é um conjunto de empresas e organizações interconectadas que operam no mesmo setor ou área geográfica, e que colaboram para melhorar sua competitividade. Esses agrupamentos permitem o compartilhamento de recursos, Conhecimentos e tecnologias, Promover a inovação e o crescimento económico. Os clusters podem abranger uma variedade de setores, Da tecnologia à agricultura, e são fundamentais para o desenvolvimento regional e a criação de empregos.... de Hadoop y funciona de manera más eficiente con un número reducido de archivos de big data de gran volumen, que con un mayor número de archivos de datos más pequeños.
Un trabajo en el mundo de Hadoop suele tardar de minutos a horas en completarse, por tanto, se podría afirmar que la opción Hadoop no es la más adecuada cuando la compañía tiene la necesidad de realizar un análisis en tiempo real, sino más bien en los casos en los que es factible conformarse con la analítica fuera de línea.
Recentemente, Hadoop ha evolucionado para adaptarse a las nuevas necesidades comerciales. Las compañías de hoy exigen:
- Reducción al mínimo del tiempo de respuesta.
- Máxima precisión en la toma de decisiones.
Hadoop se ha renovado mejorando su capacidad de administración gracias a una novedad conocida como stream. Uno de los principales objetivos de Transmisión de Hadoop es desacoplar Hadoop MapReduce del paradigma para acomodar otros modelos de computación paralela, como MPI (Message Passing Interface) y Spark. Com ele noticias de la aplicación técnicas de procesamiento y análisis de datos transmissão muchas de las limitaciones del modelo de lote naquela, aunque puede considerarse demasiado rígido para determinadas funciones, algo que no debe extrañarnos si se tiene en cuenta que sus orígenes se remontan a más de cuatro décadas; Sigue siendo el más indicado, por la vinculación costo-resultado, para operaciones como:
- El cálculo del valor de mercado de los activos, que no necesita ser revisado más de al menos una vez al día.
- Cálculo mensual del costo de las facturas telefónicas de los trabajadores.
- Generación de informes relacionados con temas tributarios.
Procesamiento de flujo
Este tipo de técnicas de procesamiento y análisis de datos se centran en el Implementación de un modelo de flujo de datos en el que los datos asociados con series de tiempo (hechos) fluyen de forma continua por medio de una red de entidades de transformación que componen el sistema.. Se conoce como transmisión o procesamiento de transmisión.
No hay limitaciones de tiempo obligatorias. en el procesamiento de flujo, al contrario de lo que ocurre con técnicas de procesamiento y análisis de datos em tempo real. Como um exemplo, un sistema que se encarga del recuento de palabras incluidas en cada tweet para el 99,9% de los tweets procesados es un sistema de procesamiento de flujo válido. Tampoco hay obligación con respecto al período de tiempo para generar la salida para cada entrada recibida en el sistema. Las únicas limitaciones son:
- Debe haber suficiente memoria disponible para guardar entradas en cola.
- La tasa de productividad del sistema a largo plazo debe ser más rápida o al menos igual a la tasa de entrada de datos en el mismo período. Si este no fuera el caso, los requerimientos de almacenamiento del sistema crecerían sin límites.
Este tipo de técnicas de procesamiento y análisis de datos No está destinado a analizar un conjunto completo de big data, por lo que de forma general no tiene esa capacidad, com poucas exceções.
Técnicas de análisis y procesamiento de datos en tiempo real
Cuando los datos se procesan en tiempo real, el nivel de procesamiento analítico en línea logrado es extremadamente alto y el margenEl margen es un término utilizado en diversos contextos, como la contabilidad, la economía y la impresión. En contabilidad, se refiere a la diferencia entre los ingresos y los costos, lo que permite evaluar la rentabilidad de un negocio. En el ámbito editorial, el margen es el espacio en blanco alrededor del texto en una página, que facilita la lectura y proporciona una presentación estética. Su correcta gestión es esencial... es de menos de segundos. É exatamente por isso que, sistemas en tiempo real no suelen usar mecanismos especiales de atomicidad y durabilidad. Solo se encargan de procesar la entrada lo antes factible.
La pregunta es qué puede pasar si pierden el boleto. Quando isso acontece, ignoran la pérdida y continúan procesando y analizando sin detenerse. Dependiendo del entorno, esto no es un obstáculo, como um exemplo, en un ecommerce, pero puede ser en el sistema de vigilancia de seguridad de un banco o una instalación militar. No es bueno que se pierda información, pero inclusive la tecnología tiene un límite y, al trabajar en tiempo real en tiempo real, el sistema no puede dejar operaciones para arreglar algo que ya pasó, estuvo segundos atrás. Los datos siguen llegando y el sistema debe hacer todo lo factible para continuar su procesamiento.
Em todo caso, técnicas de procesamiento y análisis de datos en tiempo real merecen una seria consideración, antes da implementação, dado que:
- No son tan simples de poner en práctica usando sistemas de software comunes.
- Su costo es más alto que las alternativas de transmisión.
- Dependiendo de la finalidad para la que se vayan a usar, puede ser preferible decantarse por una opción intermedia entre streaming y tiempo real, como el que utiliza Amazon en su portal web y que garantiza un resultado que no supera los cien o doscientos milisegundos en ningún caso para el 99% de todas las solicitudes