Das 3 Hauptarten der Datenverarbeitung und Analysetechniken

Inhalt

Die Wahl des Typs Techniken der Datenverarbeitung und -analyse wird das Ergebnis entscheidend beeinflussen. Leistung und Skalierbarkeit sind Eigenschaften, denen ebenso Aufmerksamkeit geschenkt werden sollte wie den Fähigkeiten des Systems, Ausreißer zu erfassen, betrügerische Transaktionen zu erkennen oder Sicherheitskontrollen durchzuführen. Die schwierigste Aufgabe, trotz dieses, es ist die Latenzzeit der Analysen zu reduzieren die an einem vollständigen Big-Data-Satz durchgeführt wird, etwas, das Terabytes an Daten in Sekundenschnelle verarbeiten muss.

Die Anforderungen im Hinblick auf die Reaktionszeit, die Bedingungen der zu analysierenden Daten oder die Arbeitslast sind die Fragen, die bestimmen, welche die beste Option in Bezug auf ist Techniken der Datenverarbeitung und -analyse.

Processing_techniques_and_data_analysis.jpg

Bildnachweis: iststock kento

Stapelverarbeitung: für große Datenmengen in Chargen

Apache Hadoop ist ein verteiltes Berechnungsframework nach dem Google-Modell Karte verkleinern zu große Datenmengen parallel zu verarbeiten. Das Verteiltes Dateisystem die Hadoop (HDFS) ist das zugrunde liegende Dateisystem von Cluster Hadoop und funktioniert effizienter mit einer geringen Anzahl von sehr großen Big-Data-Dateien, als mit einer größeren Anzahl kleinerer Datendateien.

Ein Job in der Hadoop-Welt benötigt in der Regel Minuten bis Stunden, um abgeschlossen zu werden, deshalb, man könnte sagen, dass die Hadoop-Option nicht die geeignetste ist, wenn das Unternehmen Echtzeitanalysen durchführen muss, sondern eher in den Fällen, in denen Offline-Analysen ausreichen.

Vor kurzem, Hadoop ha evolucionado para adaptarse a las nuevas necesidades comerciales. Las compañías de hoy exigen:

  • Reducción al mínimo del tiempo de respuesta.
  • Máxima precisión en la toma de decisiones.

Hadoop se ha renovado mejorando su capacidad de administración gracias a una novedad conocida como stream. Uno de los principales objetivos de Transmisión de Hadoop es desacoplar Hadoop MapReduce del paradigma para acomodar otros modelos de computación paralela, como MPI (Message Passing Interface) y Spark. Mit dem noticias de la aplicación Techniken der Datenverarbeitung und -analyse Übertragung muchas de las limitaciones del modelo de lote das, aunque puede considerarse demasiado rígido para determinadas funciones, Algo que no debe extrañarnos si se tiene en cuenta que sus orígenes se remontan a más de cuatro décadas; Es bleibt die geeignetste Option, aufgrund der Kosten-Ergebnis-Verbindung, für Operationen wie:

  • Die Berechnung des Marktwerts der Vermögenswerte, die nicht öfter als einmal am Tag überprüft werden muss.
  • Monatliche Berechnung der Telefonrechnungen der Mitarbeiter.
  • Erstellung von Berichten zu steuerlichen Themen.

Datenflussverarbeitung

Diese Art von Techniken der Datenverarbeitung und -analyse konzentriert sich auf das Implementierung eines Datenflussmodells, bei dem die mit Zeitreihen verbundenen Daten (Ereignisse) kontinuierlich durch ein Netzwerk von Transformationseinheiten fließen, die das System bilden.. Dies wird als Streaming oder Stream Processing bezeichnet.

Es gibt keine zwingenden zeitlichen Begrenzungen. bei der Datenflussverarbeitung, im Gegensatz zu dem, was bei Techniken der Datenverarbeitung und -analyse in Echtzeit. Als Beispiel, ein System, das für die Zählung der in jedem Tweet enthaltenen Wörter zuständig ist 99,9% der verarbeiteten Tweets ist ein gültiges Stream-Processing-System. Es gibt auch keine Verpflichtung in Bezug auf den Zeitraum, um die Ausgabe für jede im System empfangene Eingabe zu erzeugen. Die einzigen Beschränkungen sind:

  • Es muss genügend Speicher verfügbar sein um Eingaben in der Warteschlange zu speichern.
  • Die langfristige Produktivitätsrate des Systems muss schneller oder mindestens gleich der Eingaberate von Daten im gleichen Zeitraum sein. Wenn dies nicht der Fall wäre, würden die Speicheranforderungen des Systems unbegrenzt wachsen.

Diese Art von Techniken der Datenverarbeitung und -analyse Es ist nicht dazu gedacht, einen vollständigen Satz von Big Data zu analysieren, daher hat es allgemein nicht diese Fähigkeit, mit wenigen Ausnahmen.

Techniken zur Analyse und Verarbeitung von Daten in Echtzeit

Wenn Daten in Echtzeit verarbeitet werden, ist das erreichte Niveau der Online-Analytik extrem hoch und das Rand liegt unter Sekunden. Genau deshalb, Echtzeitsysteme verwenden normalerweise keine speziellen Mechanismen für Atomizität und Dauerhaftigkeit. Sie kümmern sich lediglich darum, die Eingabe so schnell wie möglich zu verarbeiten.

Die Frage ist, was passieren kann, wenn sie das Ticket verlieren. Wenn das passiert, Sie ignorieren den Verlust und verarbeiten sowie analysieren weiter, ohne anzuhalten. Je nach Umgebung, ist dies kein Hindernis, als Beispiel, in einem E-Commerce, aber es kann im Sicherheitsüberwachungssystem einer Bank oder einer militärischen Einrichtung problematisch sein. Es ist nicht gut, wenn Informationen verloren gehen, aber selbst die Technologie hat eine Grenze und, Bei der Arbeit in Echtzeit, kann das System keine Operationen aufschieben, um etwas zu beheben, das bereits passiert ist, es war Sekunden zuvor. Die Daten kommen weiterhin an und das System muss alles Mögliche tun, um die Verarbeitung fortzusetzen.

Auf jeden Fall, Techniken der Datenverarbeitung und -analyse In Echtzeit verdienen sie ernsthafte Beachtung, Vor der Implementierung, Angenommen:

  • Es ist nicht so einfach, sie mit gebräuchlicher Software umzusetzen.
  • Die Kosten sind höher als bei Übertragungsalternativen.
  • Je nach Zweck, für den sie verwendet werden sollen, kann es vorzuziehen sein, sich für eine Zwischenlösung zwischen Streaming und Echtzeit zu entscheiden, wie diejenige, die Amazon auf seiner Webseite verwendet und ein Ergebnis garantiert, das in keinem Fall mehr als hundert oder zweihundert Millisekunden für die 99% aller Anfragen überschreitet

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.

Datenlautsprecher