Die Wahl des Typs Techniken der Datenverarbeitung und -analyse wird das Ergebnis entscheidend beeinflussen. Leistung und Skalierbarkeit sind Eigenschaften, denen ebenso Aufmerksamkeit geschenkt werden sollte wie den Fähigkeiten des Systems, Ausreißer zu erfassen, betrügerische Transaktionen zu erkennen oder Sicherheitskontrollen durchzuführen. Die schwierigste Aufgabe, trotz dieses, es ist die Latenzzeit der Analysen zu reduzieren die an einem vollständigen Big-Data-Satz durchgeführt wird, etwas, das Terabytes an Daten in Sekundenschnelle verarbeiten muss.
Die Anforderungen im Hinblick auf die Reaktionszeit, die Bedingungen der zu analysierenden Daten oder die Arbeitslast sind die Fragen, die bestimmen, welche die beste Option in Bezug auf ist Techniken der Datenverarbeitung und -analyse.

Bildnachweis: iststock kento
Stapelverarbeitung: für große Datenmengen in Chargen
Apache Hadoop ist ein verteiltes Berechnungsframework nach dem Google-Modell Karte verkleinernMapReduce ist ein Programmiermodell, das entwickelt wurde, um große Datensätze effizient zu verarbeiten und zu generieren. Unterstützt von Google, Bei diesem Ansatz wird die Arbeit in kleinere Aufgaben aufgeteilt, die auf mehrere Knoten in einem Cluster verteilt sind. Jeder Knoten verarbeitet seinen Teil und dann werden die Ergebnisse kombiniert. Mit dieser Methode können Sie Anwendungen skalieren und große Informationsmengen verarbeiten, in der Welt von Big Data von grundlegender Bedeutung zu sein.... zu große Datenmengen parallel zu verarbeiten. Das Verteiltes DateisystemEin verteiltes Dateisystem (DFS) Ermöglicht die Speicherung und den Zugriff auf Daten auf mehreren Servern, Erleichterung der Verwaltung großer Informationsmengen. Diese Art von System verbessert die Verfügbarkeit und Redundanz, da Dateien an verschiedene Speicherorte repliziert werden, Reduzierung des Risikos von Datenverlusten. Was ist mehr, Ermöglicht Benutzern den Zugriff auf Dateien von verschiedenen Plattformen und Geräten aus, die Zusammenarbeit zu fördern und... die Hadoop (HDFSHDFS, o Verteiltes Hadoop-Dateisystem, Es ist eine Schlüsselinfrastruktur für die Speicherung großer Datenmengen. Entwickelt für die Ausführung auf gängiger Hardware, HDFS ermöglicht die Datenverteilung über mehrere Knoten, Sicherstellung einer hohen Verfügbarkeit und Fehlertoleranz. Seine Architektur basiert auf einem Master-Slave-Modell, wobei ein Master-Knoten das System verwaltet und Slave-Knoten die Daten speichern, Erleichterung der effizienten Verarbeitung von Informationen..) ist das zugrunde liegende Dateisystem von ClusterEin Cluster ist eine Gruppe miteinander verbundener Unternehmen und Organisationen, die im selben Sektor oder geografischen Gebiet tätig sind, und die zusammenarbeiten, um ihre Wettbewerbsfähigkeit zu verbessern. Diese Gruppierungen ermöglichen die gemeinsame Nutzung von Ressourcen, Wissen und Technologien, Förderung von Innovation und Wirtschaftswachstum. Cluster können sich über eine Vielzahl von Branchen erstrecken, Von der Technologie bis zur Landwirtschaft, und sind von grundlegender Bedeutung für die regionale Entwicklung und die Schaffung von Arbeitsplätzen.... Hadoop und funktioniert effizienter mit einer geringen Anzahl von sehr großen Big-Data-Dateien, als mit einer größeren Anzahl kleinerer Datendateien.
Ein Job in der Hadoop-Welt benötigt in der Regel Minuten bis Stunden, um abgeschlossen zu werden, deshalb, man könnte sagen, dass die Hadoop-Option nicht die geeignetste ist, wenn das Unternehmen Echtzeitanalysen durchführen muss, sondern eher in den Fällen, in denen Offline-Analysen ausreichen.
Vor kurzem, Hadoop ha evolucionado para adaptarse a las nuevas necesidades comerciales. Las compañías de hoy exigen:
- Reducción al mínimo del tiempo de respuesta.
- Máxima precisión en la toma de decisiones.
Hadoop se ha renovado mejorando su capacidad de administración gracias a una novedad conocida como stream. Uno de los principales objetivos de Transmisión de Hadoop es desacoplar Hadoop MapReduce del paradigma para acomodar otros modelos de computación paralela, como MPI (Message Passing Interface) y Spark. Mit dem noticias de la aplicación Techniken der Datenverarbeitung und -analyse Übertragung muchas de las limitaciones del modelo de lote das, aunque puede considerarse demasiado rígido para determinadas funciones, Algo que no debe extrañarnos si se tiene en cuenta que sus orígenes se remontan a más de cuatro décadas; Es bleibt die geeignetste Option, aufgrund der Kosten-Ergebnis-Verbindung, für Operationen wie:
- Die Berechnung des Marktwerts der Vermögenswerte, die nicht öfter als einmal am Tag überprüft werden muss.
- Monatliche Berechnung der Telefonrechnungen der Mitarbeiter.
- Erstellung von Berichten zu steuerlichen Themen.
Datenflussverarbeitung
Diese Art von Techniken der Datenverarbeitung und -analyse konzentriert sich auf das Implementierung eines Datenflussmodells, bei dem die mit Zeitreihen verbundenen Daten (Ereignisse) kontinuierlich durch ein Netzwerk von Transformationseinheiten fließen, die das System bilden.. Dies wird als Streaming oder Stream Processing bezeichnet.
Es gibt keine zwingenden zeitlichen Begrenzungen. bei der Datenflussverarbeitung, im Gegensatz zu dem, was bei Techniken der Datenverarbeitung und -analyse in Echtzeit. Als Beispiel, ein System, das für die Zählung der in jedem Tweet enthaltenen Wörter zuständig ist 99,9% der verarbeiteten Tweets ist ein gültiges Stream-Processing-System. Es gibt auch keine Verpflichtung in Bezug auf den Zeitraum, um die Ausgabe für jede im System empfangene Eingabe zu erzeugen. Die einzigen Beschränkungen sind:
- Es muss genügend Speicher verfügbar sein um Eingaben in der Warteschlange zu speichern.
- Die langfristige Produktivitätsrate des Systems muss schneller oder mindestens gleich der Eingaberate von Daten im gleichen Zeitraum sein. Wenn dies nicht der Fall wäre, würden die Speicheranforderungen des Systems unbegrenzt wachsen.
Diese Art von Techniken der Datenverarbeitung und -analyse Es ist nicht dazu gedacht, einen vollständigen Satz von Big Data zu analysieren, daher hat es allgemein nicht diese Fähigkeit, mit wenigen Ausnahmen.
Techniken zur Analyse und Verarbeitung von Daten in Echtzeit
Wenn Daten in Echtzeit verarbeitet werden, ist das erreichte Niveau der Online-Analytik extrem hoch und das RandMargin ist ein Begriff, der in einer Vielzahl von Zusammenhängen verwendet wird, wie z.B. Buchhaltung, Wirtschaft und Druck. In der Buchhaltung, bezieht sich auf die Differenz zwischen Umsatz und Kosten, die es ermöglicht, die Rentabilität eines Unternehmens zu bewerten. Im Bereich Publishing, Der Rand ist der Leerraum um den Text auf einer Seite, Das macht es gut lesbar und sorgt für eine ästhetische Darstellung. Die korrekte Verwaltung ist unerlässlich.. liegt unter Sekunden. Genau deshalb, Echtzeitsysteme verwenden normalerweise keine speziellen Mechanismen für Atomizität und Dauerhaftigkeit. Sie kümmern sich lediglich darum, die Eingabe so schnell wie möglich zu verarbeiten.
Die Frage ist, was passieren kann, wenn sie das Ticket verlieren. Wenn das passiert, Sie ignorieren den Verlust und verarbeiten sowie analysieren weiter, ohne anzuhalten. Je nach Umgebung, ist dies kein Hindernis, als Beispiel, in einem E-Commerce, aber es kann im Sicherheitsüberwachungssystem einer Bank oder einer militärischen Einrichtung problematisch sein. Es ist nicht gut, wenn Informationen verloren gehen, aber selbst die Technologie hat eine Grenze und, Bei der Arbeit in Echtzeit, kann das System keine Operationen aufschieben, um etwas zu beheben, das bereits passiert ist, es war Sekunden zuvor. Die Daten kommen weiterhin an und das System muss alles Mögliche tun, um die Verarbeitung fortzusetzen.
Auf jeden Fall, Techniken der Datenverarbeitung und -analyse In Echtzeit verdienen sie ernsthafte Beachtung, Vor der Implementierung, Angenommen:
- Es ist nicht so einfach, sie mit gebräuchlicher Software umzusetzen.
- Die Kosten sind höher als bei Übertragungsalternativen.
- Je nach Zweck, für den sie verwendet werden sollen, kann es vorzuziehen sein, sich für eine Zwischenlösung zwischen Streaming und Echtzeit zu entscheiden, wie diejenige, die Amazon auf seiner Webseite verwendet und ein Ergebnis garantiert, das in keinem Fall mehr als hundert oder zweihundert Millisekunden für die 99% aller Anfragen überschreitet


