Dieser Artikel wurde im Rahmen der Data Science Blogathon.
Einführung
Big Data bezeichnet eine Kombination aus strukturierten und unstrukturierten Daten, die in Petabyte oder Exabyte gemessen werden können. Wie gewöhnlich, Wir verwenden 3V, um die 3V von Big Data zu charakterisieren, nämlich, die Datenmenge, die Vielfalt der Datentypen und die Geschwindigkeit, mit der sie verarbeitet werden.
Diese drei Eigenschaften erschweren die Verwaltung von Big Data. Deswegen, Big Data ist investitionsintensiv auf einer großen Menge an Serverspeicher, ausgereifte Analysemaschinen und Data-Mining-Methoden. METROJede Organisation findet dies sowohl technisch als auch finanziell umständlich und, Daher, du denkst darüber nach, wie du es erreichen kannst Ähnliche Ergebnisse können mit viel weniger Aufwand erzielt werden.. Deswegen, versuchen aus Big Data kleine Daten zu machen., bestehend aus nutzbaren Datenblöcken. Die folgende Abbildung [1] einen Vergleich anzeigen.
Versuchen wir, eine einfache statistische Technik zu erkunden, die verwendet werden kann, um aus Big Data ein verwertbares Stück Daten zu erstellen. Die Probe, was im Grunde eine Teilmenge der Bevölkerung ist, sollte so gewählt werden, dass die Bevölkerung angemessen repräsentiert wird. Dies kann durch statistische Tests sichergestellt werden.
Einführung in die Reservoir-Probenahme
Die Schlüsselidee bei der Probenahme von Lagerstätten besteht darin, ein "Reservoir" zu schaffen’ aus einem großen Ozean von Daten. Meer ‘N’ die Größe der Bevölkerung und 'n’ Die Größe der Stichprobe. Jedes Element der Grundgesamtheit hat die gleiche Wahrscheinlichkeit, in der Stichprobe vorhanden zu sein, und diese Wahrscheinlichkeit ist (n / n). Mit dieser Schlüsselidee, wir müssen eine Unterstichprobe erstellen. Es ist zu beachten, dass wenn wir ein Muster erstellen, Verteilungen müssen nicht nur in Zeilen, sondern auch in Spalten identisch sein.
Wie gewöhnlich, wir konzentrieren uns nur auf die reihen, aber es ist auch wichtig, die Verteilung der Spalten beizubehalten. Die Spalten sind die Eigenschaften, aus denen der Trainingsalgorithmus lernt. Deswegen, Außerdem müssen wir für jedes Feature statistische Tests durchführen, um sicherzustellen, dass die Verteilung identisch ist.
Der Algorithmus ist wie folgt: Initialisieren Sie das Reservoir mit dem ersten 'n’ Populationselemente der Größe 'N'. Dann lesen Sie jede Zeile in Ihrem Datensatz (ich> n). In jeder Iteration, Berechnung (n / ich). Wir ersetzen die Elemente des Reservoirs der folgenden Menge von 'n’ Items mit allmählich abnehmender Wahrscheinlichkeit.
R[ich] = S[ich]
für i = n+1 bis N:
j = U ~ [1, ich]
wenn ich <= n:
R[J] = S[ich]
Statistische Tests
Wie ich bereits erwähnte, wir müssen sicherstellen, dass alle Spalten (Merkmale) des Reservoirs sind identisch auf die Bevölkerung verteilt. Wir werden den Kolmogorov-Smirnov-Test für kontinuierliche Merkmale und den Pearson-Chi-Quadrat-Test für kategoriale Merkmale verwenden..
Der Kolmogorov-Smirnov-Test wird verwendet, um zu überprüfen, ob die kumulativen Verteilungsfunktionen (CDF) der Grundgesamtheit und der Stichprobe sind gleich. Wir vergleichen die CDF der Bevölkerung F_N (x) mit der Probe F_n (x).
fnx
Als n -> n, D_n -> 0, wenn die Verteilungen identisch sind. Dieser Test sollte für alle Merkmale des Datensatzes durchgeführt werden, die kontinuierlich sind.
Für kategoriale Merkmale, Wir können den Chi-Quadrat-Test nach Pearson durchführen. Sei O_i die Anzahl der Beobachtungen in der Kategorie ‘i’ und ne die anzahl der proben. Sei E_i die erwartete Anzahl der Kategorie 'i'. Entonzen E_i = N p_i, wobei p_i die Wahrscheinlichkeit ist, zur Kategorie ‚i‘ zu gehören. Dann ist der Chi-Quadrat-Wert durch die folgende Beziehung gegeben:
Wenn Chi-Quadrat = 0, das heißt die beobachteten Werte und die erwarteten Werte sind gleich. Wenn der p-Wert des statistischen Tests größer als das Signifikanzniveau ist, wir sagen, dass die Stichprobe statistisch signifikant ist.
Abschließende Anmerkungen
Die Probenahme von Reservoirs kann verwendet werden, um aus Big Data ein nützliches Datenelement zu erstellen, solange die beiden Tests, Kolmogorov-Smirnov und Pearsons Chi-Quadrat, erfolgreich sein. Aktuelle Gerüchte sind, Natürlich, Große Daten. Zentralisierte Modelle wie Big-Data-Architekturen haben große Schwierigkeiten. Dinge zu dezentralisieren und, Daher, Arbeit modular machen, wir müssen kleine Bits von nützlichen Daten erstellen und dann aussagekräftige Informationen daraus erhalten. Ich denke, dass mehr Anstrengungen in diese Richtung unternommen werden sollten, anstatt in Architektur zu investieren, um Big Data zu unterstützen.
Verweise
1. https://www.bbvaopenmind.com/en/technology/digital-world/small-data-vs-big-data-back-to-the-basics/