Glossar gängiger Begriffe des maschinellen Lernens, Statistik und Datenwissenschaft

Teilen auf Facebook
Teilen auf twittern
Teilen auf verlinktin
Teilen auf Telegramm
Teilen auf WhatsApp

Inhalt

Wort

Beschreibung

Maschinelles Lernen Machine Learning bezieht sich auf die Techniken, mit denen Big Data auf die intelligenteste Art und Weise verarbeitet werden (durch die Entwicklung von Algorithmen) für umsetzbare Erkenntnisse. Bei diesen Techniken, wir erwarten, dass Algorithmen von selbst lernen, ohne explizit programmiert zu werden. Mahout Mahout ist ein Open-Source-Apache-Projekt, das verwendet wird, um skalierbare Algorithmen für maschinelles Lernen zu erstellen. Implementieren Sie gängige Techniken des maschinellen Lernens als Empfehlung, Klassifizierung und Clustering.

Mahout-Funktionen:

  • Mahout bietet ein Framework zum Ausführen von Data-Mining-Aufgaben für große Datenmengen
  • Mahout ermöglicht Anwendungen die effiziente und schnelle Analyse großer Datensätze
  • Es bietet auch verteilte Fitnessfunktionsfunktionen für die evolutionäre Programmierung..
  • Umfasst mehrere MapReduce-fähige Cluster-Implementierungen, como k-means, Fuzzy-K-Mittel, Dirichlet y Mean-Shift
Kleine Karte Hadoop MapReduce ist ein Software-Framework zum einfachen Schreiben von Anwendungen, die große Datenmengen verarbeiten (Datensätze mit mehreren Terabyte) parallel in großen Gruppen (Hunderte von Knoten) von Basishardware zuverlässig und fehlertolerant.

Ein MapReduce-Framework besteht im Allgemeinen aus drei Operationen:

  1. Karte: jeder Worker-Knoten wendet die Map-Funktion auf lokale Daten an und schreibt die Ausgabe in den temporären Speicher. Ein Masterknoten sorgt dafür, dass nur eine Kopie der redundanten Eingangsdaten verarbeitet wird.
  2. Mischen: Worker-Knoten verteilen Daten basierend auf Ausgabeschlüsseln neu (erzeugt durch die Kartenfunktion), damit sich alle zu einem Schlüssel gehörenden Daten im selben Worker-Knoten befinden.
  3. Reduzieren: Worker-Knoten verarbeiten jetzt jede Gruppe von Ausgabedaten, per Schlüssel, parallel zu.

Um mehr über MapReduce zu erfahren, Besuch hier.

Warenkorbanalyse Warenkorbanalyse (auch MBA genannt) ist eine unter Marketingfachleuten weit verbreitete Technik, um die bestmögliche Kombination von Produkten oder Dienstleistungen zu ermitteln, die Kunden häufig kaufen. Dies wird auch als Produktassoziationsanalyse bezeichnet.. Die Assoziationsanalyse erfolgt hauptsächlich auf Basis eines Algorithmus namens “A-priori-Algorithmus”. Das Ergebnis dieser Analyse nennt man Assoziationsregeln. Marketingspezialisten verwenden diese Regeln, um ihre Empfehlungen zu planen..

Beim Kauf von zwei oder mehr Produkten, die Analyse des Warenkorbs wird durchgeführt, um zu überprüfen, ob der Kauf eines Produkts die Wahrscheinlichkeit erhöht, andere Produkte zu kaufen. Dieses Wissen ist ein Werkzeug für Vermarkter, um Produkte zu gruppieren oder eine Strategie zum Cross-Selling von Produkten an einen Kunden zu entwickeln..

Markt-Mix-Modellierung Market Mix Modeling ist ein analytischer Ansatz, der historische Informationen als Point of Sale verwendet, um die Auswirkungen einiger Komponenten auf den Umsatz zu quantifizieren.

Angenommen, der Gesamtverkauf beträgt 100 $, diese Summe kann in Unterkomponenten unterteilt werden, Mit anderen Worten, 60 $ Basisverkauf, 20 $ Preis, 18 $ kann Verteilung sein und 2 $ kann auf Werbeaktivitäten zurückzuführen sein. Diese Zahlen können mit verschiedenen logischen Methoden erreicht werden. Jede Methode kann zu einem anderen Bruch führen. Deswegen, Es ist sehr wichtig, das Verfahren für die Aufgliederung des Gesamtumsatzes in diese Komponenten zu standardisieren. Diese formale Technik ist offiziell als MMM oder Market Mix Modeling bekannt..

Schätzung der maximalen Wahrscheinlichkeit Es ist eine Methode, um die Werte der Parameter zu finden, die die Wahrscheinlichkeit maximal machen. Die resultierenden Werte werden als Maximum-Likelihood-Schätzungen bezeichnet. (MLE). Meinen Für einen Datensatz, der Mittelwert ist der Mittelwert aller Zahlen. Kann manchmal als Darstellung aller Daten verwendet werden.

Als Beispiel, wenn Sie die Noten der Schüler einer Klasse haben und fragen, wie gut die Klasse abschneidet. Es wäre irrelevant, die Noten der einzelnen Schüler zu nennen, jedoch, kannst du den Mittelwert der Klasse finden?, wer wird ein Vertreter der Klassenleistung sein.
Um das Mittel zu finden, addiere alle Zahlen und dividiere dann durch die Anzahl der Gegenstände im Set.

Als Beispiel, wenn die Zahlen sind 1, 2, 3, 4, 5, 6, 7, 8, 8, dann wäre das mittel 44/9 = 4,89.

Median Der Median einer Reihe von Zahlen ist normalerweise der Mittelwert. Wenn die Gesamtzahl im Set gerade ist, der Median ist der Durchschnitt der beiden Mittelwerte. Der Median wird verwendet, um die zentrale Tendenz zu messen.

Den Median einer Reihe von Zahlen ermitteln, folgen Sie den unteren Schritten:

  1. Ordne die Zahlen in aufsteigender oder absteigender Reihenfolge an
  2. Finden Sie den Mittelwert, was wird n sein / 2 (wobei n die Zahlen der Menge sind)
MAL Ein Management-Informationssystem (WAS) ist ein Computersystem bestehend aus Hard- und Software, das als Rückgrat der Betriebsabläufe einer Organisation dient. Ein MIS sammelt Daten aus mehreren Online-Systemen, analysiert Informationen und meldet Daten, um die Entscheidungsfindung des Managements zu unterstützen.

Ziele von MIS:

  • Um die Entscheidungsfindung voranzutreiben, Bereitstellung genauer und aktueller Daten zu einer Reihe von Unternehmensressourcen.
  • Korrelieren Sie mehrere Datenpunkte, um Strategien zu entwickeln, um den Betrieb voranzutreiben.
ML-as-a-Service (MLaaS) Maschinelles Lernen als Service (MLaaS) ist eine Reihe von Diensten, die Tools für maschinelles Lernen als Teil von Cloud-Computing-Diensten bereitstellen. Dazu können Tools zur Datenvisualisierung gehören, Gesichtsakkreditierung, Verarbeitung natürlicher Sprache, Bildakkreditierung, Predictive Analytics und Deep Learning. Einige der besten ML-as-a-Service-Anbieter sind:

  • Microsoft Azure Machine Learning-Studie
  • AWS-Maschinelles Lernen
  • IBM Watson Machine Learning
  • Google Cloud Machine Learning Engine
  • BigML
Weg Der Modus ist der Wert, der in der Bevölkerung am häufigsten vorkommt. Es ist eine Metrik zur Messung der zentralen Tendenz, Mit anderen Worten, eine art auszudrücken, in einer nummer (allgemein) einzigartig, wichtige Informationen über eine Zufallsvariable oder Population.

Der Modus kann durch die folgenden Schritte berechnet werden:

  • Zählen Sie, wie oft jeder Wert erscheint
  • Nimm den Wert, der am häufigsten vorkommt

Lass es uns mit einem Beispiel verstehen:

Angenommen, wir haben einen Datensatz mit 10 Datenpunkte, nachfolgend aufgeführten:

4,5,2,8,4,7,6,4,6,3

Jetzt berechnen wir, wie oft jeder Wert aufgetreten ist.

Wert Erzählen
2 1
3 1
4 3
5 1
6 2
7 1
8 1

Wir sehen also, dass der Wert 4 wiederholt sich am häufigsten, Mit anderen Worten, 3 mal. Dann, der Modus dieses Datensatzes ist 4.

Modellauswahl Modellauswahl ist die Aufgabe, ein statistisches Modell aus einer Menge bekannter Modelle auszuwählen. Mehrere Methoden, die verwendet werden können, um das Modell auszuwählen, sind:

  • Explorative Datenanalyse
  • Wissenschaftliche Methoden

Einige der Kriterien für die Auswahl des Modells können sein::

  • Akaike Informationskriterien (AIC)
  • R angepasst2
  • Bayessches Informationskriterium (BIC)
  • Likelihood-Ratio-Test
Monte-Carlo-Simulation Die Idee hinter der Monte-Carlo-Simulation besteht darin, zufällige Stichproben von Parametern oder Eingaben zu verwenden, um das Verhalten eines komplexen Verfahrens zu untersuchen. Monte-Carlo-Simulationen testen eine Wahrscheinlichkeitsverteilung für jede Variable, um Hunderte oder Hunderte von möglichen Ergebnissen zu erzeugen. Die Ergebnisse werden analysiert, um Wahrscheinlichkeiten für das Auftreten verschiedener Ergebnisse zu erhalten. Mehrklassenklassifizierung Probleme mit mehr als einer Klasse in der Zielvariablen werden als Klassifikationsprobleme mit mehreren Klassen bezeichnet..

Als Beispiel, wenn das Ziel darin besteht, die Qualität eines Produkts vorherzusagen, was ausgezeichnet sein kann, gut, Durchschnitt, regulär, gering. Für diesen Fall, die Variable hat 5 Lektionen, es ist also ein Hindernis für die Klassifizierung von 5 Lektionen.

Analyse multivariabel Die multivariate Analyse ist ein Verfahren zum Vergleichen und Analysieren der Abhängigkeit mehrerer Variablen voneinander..

Als Beispiel, Wir können eine bivariate Analyse der Kombination zweier kontinuierlicher Merkmale durchführen und eine Verbindung zwischen ihnen finden.

Multivariate Regression Multivariat, wie das Wort schon sagt, bezieht sich auf 'mehrere abhängige Variablen'. Ein Regressionsmodell, das für den Umgang mit mehreren abhängigen Variablen ausgelegt ist, wird als multivariates Regressionsmodell bezeichnet..

Betrachten Sie das Beispiel: für einen bestimmten Satz von Details über die Interessen eines Schülers, vorherige Punktzahl nach Thema, etc., möchten GPA für alle Semester vorhersagen (GPA1, GPA2,….). Diese Problemstellung kann durch multivariate Regression angegangen werden, da wir mehr als eine abhängige Variable haben.

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.