Reservoirprobenahme | Einführung in die Reservoir-Probenahme

Inhalt

Dieser Artikel wurde im Rahmen der Data Science Blogathon.

Einführung

Big Data bezeichnet eine Kombination aus strukturierten und unstrukturierten Daten, die in Petabyte oder Exabyte gemessen werden können. Wie gewöhnlich, Wir verwenden 3V, um die 3V von Big Data zu charakterisieren, nämlich, die Datenmenge, die Vielfalt der Datentypen und die Geschwindigkeit, mit der sie verarbeitet werden.

Diese drei Eigenschaften erschweren die Verwaltung von Big Data. Deswegen, Big Data ist investitionsintensiv auf einer großen Menge an Serverspeicher, ausgereifte Analysemaschinen und Data-Mining-Methoden. METROJede Organisation findet dies sowohl technisch als auch finanziell umständlich und, Daher, du denkst darüber nach, wie du es erreichen kannst Ähnliche Ergebnisse können mit viel weniger Aufwand erzielt werden.. Deswegen, versuchen aus Big Data kleine Daten zu machen., bestehend aus nutzbaren Datenblöcken. La siguiente Abbildung [1] einen Vergleich anzeigen.

67152bbva-openmind-banafa-big-data-basics-1-3871078

Versuchen wir, eine einfache statistische Technik zu erkunden, die verwendet werden kann, um aus Big Data ein verwertbares Stück Daten zu erstellen. Die Probe, was im Grunde eine Teilmenge der Bevölkerung ist, sollte so gewählt werden, dass die Bevölkerung angemessen repräsentiert wird. Dies kann durch statistische Tests sichergestellt werden.

Einführung in die Reservoir-Probenahme

La idea clave detrás del muestreo de reservorios es crear unreservorio‘ aus einem großen Ozean von Daten. Sea ‚n‘ el tamaño de la población y ‚n‘ Die Größe der Stichprobe. Jedes Element der Grundgesamtheit hat die gleiche Wahrscheinlichkeit, in der Stichprobe vorhanden zu sein, und diese Wahrscheinlichkeit ist (n / n). Mit dieser Schlüsselidee, wir müssen eine Unterstichprobe erstellen. Es ist zu beachten, dass wenn wir ein Muster erstellen, Verteilungen müssen nicht nur in Zeilen, sondern auch in Spalten identisch sein.

Wie gewöhnlich, wir konzentrieren uns nur auf die reihen, aber es ist auch wichtig, die Verteilung der Spalten beizubehalten. Las columnas son las características de las que aprende el algoritmo de Ausbildung. Deswegen, Außerdem müssen wir für jedes Feature statistische Tests durchführen, um sicherzustellen, dass die Verteilung identisch ist.

Der Algorithmus ist wie folgt: Inicialice el yacimiento con los primeros ‚n‘ elementos de la población de tamaño ‚n‘. Dann lesen Sie jede Zeile in Ihrem Datensatz (ich> n). In jeder Iteration, Berechnung (n / ich). Reemplazamos los elementos del reservorio del siguiente conjunto de ‚n‘ Items mit allmählich abnehmender Wahrscheinlichkeit.


R[ich] = S[ich]

für i = n+1 bis N:

j = U ~ [1, ich]

wenn ich <= n:

R[J] = S[ich]

Statistische Tests

Wie ich bereits erwähnte, wir müssen sicherstellen, dass alle Spalten (Merkmale) des Reservoirs sind identisch auf die Bevölkerung verteilt. Wir werden den Kolmogorov-Smirnov-Test für kontinuierliche Merkmale und den Pearson-Chi-Quadrat-Test für kategoriale Merkmale verwenden..

Der Kolmogorov-Smirnov-Test wird verwendet, um zu überprüfen, ob die kumulativen Verteilungsfunktionen (CDF) der Grundgesamtheit und der Stichprobe sind gleich. Wir vergleichen die CDF der Bevölkerung F_N (x) mit der Probe F_n (x).

fnx

45519Bild1-2261614

Als n -> n, D_n -> 0, wenn die Verteilungen identisch sind. Dieser Test sollte für alle Merkmale des Datensatzes durchgeführt werden, die kontinuierlich sind.

Für kategoriale Merkmale, Wir können den Chi-Quadrat-Test nach Pearson durchführen. Sea O_i el número de observaciones de la categoría ‚ich‘ und ne die anzahl der proben. Sea E_i el recuento esperado de la categoría ‚ich‘. Entonzen E_i = N p_i, donde p_i es la probabilidad de pertenecer a la categoría ‚ich‘. Dann ist der Chi-Quadrat-Wert durch die folgende Beziehung gegeben:

28825Bild2-9669003

Wenn Chi-Quadrat = 0, das heißt die beobachteten Werte und die erwarteten Werte sind gleich. Wenn der p-Wert des statistischen Tests größer als das Signifikanzniveau ist, wir sagen, dass die Stichprobe statistisch signifikant ist.

Abschließende Anmerkungen

Die Probenahme von Reservoirs kann verwendet werden, um aus Big Data ein nützliches Datenelement zu erstellen, solange die beiden Tests, Kolmogorov-Smirnov und Pearsons Chi-Quadrat, erfolgreich sein. Aktuelle Gerüchte sind, Natürlich, Große Daten. Zentralisierte Modelle wie Big-Data-Architekturen haben große Schwierigkeiten. Dinge zu dezentralisieren und, Daher, Arbeit modular machen, wir müssen kleine Bits von nützlichen Daten erstellen und dann aussagekräftige Informationen daraus erhalten. Ich denke, dass mehr Anstrengungen in diese Richtung unternommen werden sollten, anstatt in Architektur zu investieren, um Big Data zu unterstützen.

Verweise

1. https://www.bbvaopenmind.com/en/technology/digital-world/small-data-vs-big-data-back-to-the-basics/

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.