Entscheidungsbaumalgorithmus zur Klassifizierung: maschinelles Lernen 101

Teilen auf Facebook
Teilen auf twittern
Teilen auf verlinktin
Teilen auf Telegramm
Teilen auf WhatsApp

Inhalt

Dieser Artikel wurde im Rahmen der Data Science Blogathon.

Überblick

  • Erfahren Sie mehr über den Entscheidungsbaum-Algorithmus im maschinellen Lernen für Klassifikationsprobleme.
  • Hier haben wir die Entropie abgedeckt, Informationsgewinn und Gini-Verunreinigung

Entscheidungsbaum-Algorithmus

Algorithmen. Dass kann sowohl für ein Klassifikationsproblem als auch für ein Regressionsproblem verwendet werden.

Das Ziel dieses Algorithmus ist es, ein Modell zu erstellen, das den Wert einer Zielvariablen vorhersagt, bei dem der Entscheidungsbaum die Darstellung des Baumes verwendet, um das Problem zu lösen, bei dem der Blattknoten einem Klassenlabel entspricht und die Attribute im internen Knoten dargestellt werden. Vom baum.

Nehmen wir einen Beispieldatensatz, um weiter zu gehen ....

41746Screenshot2096-3876029

Angenommen, wir haben eine Probe von 14 Patientendatensätze und wir müssen vorhersagen, welches Medikament wir Patient A oder B vorschlagen sollen.

Nehmen wir an, wir wählen Cholesterin als erstes Attribut, um die Daten aufzuteilen

40753Screenshot2098-4676492

Es teilt unsere Daten in zwei Zweige hoch und normal nach Cholesterin auf, wie Sie in der Abbildung oben sehen können.

Angenommen, unser neuer Patient hat einen hohen Cholesterinspiegel aus der obigen Aufteilung unserer Daten, die wir nicht sagen können entweder Medikament B oder Medikament A ist für den Patienten geeignet.

Was ist mehr, wenn das Cholesterin des Patienten normal ist, wir haben noch keine Idee oder Informationen, um festzustellen, ob Medikament A oder Medikament B für den Patienten geeignet ist.

Nehmen wir ein anderes Attribut Alter, wie wir sehen können, Alter hat drei Kategorien: Junger Mann, mittleres Alter und älter, lass uns versuchen zu teilen.

82443Screenshot20100-4295219

Aus der vorherigen Abbildung, Jetzt können wir sagen, dass wir aufgrund der Berichte leicht vorhersagen können, welches Medikament einem Patienten zu verabreichen ist.

Annahmen, die wir bei der Verwendung des Entscheidungsbaums treffen:

– Am Anfang, wir betrachten das gesamte Trainingsset als Wurzel.

-Charakteristische Werte sind bevorzugt kategorisch, wenn die Werte weitergehen, werden in diskret umgewandelt, bevor das Modell erstellt wird.

-Basierend auf Attributwerten, Datensätze werden rekursiv verteilt.

-Wir verwenden eine statistische Methode, um Attribute wie Root Node oder Internal Node zu ordnen.

Mathematik hinter dem Entscheidungsbaumalgorithmus: Bevor Sie zur Informationsgewinnung übergehen, Wir müssen zuerst die Entropie verstehen.

Entropie: Entropie sind die Maße von Verunreinigung, Störung, Ö Unsicherheit in vielen Beispielen.

Zweck der Entropie:

Die Entropie steuert, wie ein Entscheidungsbaum entscheidet auseinander brechen die Daten. Es beeinflusst, wie a Entscheidungsbaum seine Grenzen ziehen.

"Entropiewerte reichen von 0 ein 1", weniger ist der Entropiewert zuverlässiger.

27223Screenshot20103-4776202
38403Screenshot20106-1386100

Angenommen, wir haben Eigenschaften F1, F2, F3, wir wählen das Merkmal F1 als unseren Wurzelknoten

F1 enthält 9 beschriften ja und 5 kein Etikett, Nach dem Teilen von F1 erhalten wir F2, das hat 6 Jawohl / 2 Nein und F3 hast du 3 Jawohl / 3 Nein.

Jetzt, wenn wir versuchen, die Entropie von beiden F2 mit der Entropieformel zu berechnen …

Setzen Sie die Werte in die Formel ein:

86728Screenshot20108-9276083

Hier, 6 ist die Anzahl der Jas, die als positiv angesehen werden, da wir die Wahrscheinlichkeit dividiert durch berechnen 8 ist die Gesamtzahl der Zeilen in F2.

Auf die gleiche Weise, Wenn wir Entropie für F3 durchführen, erhalten wir 1 Bit, bei dem es sich um ein Attribut handelt, da darin 50%, Ja und 50% Nein.

Diese Division wird solange fortgesetzt, bis wir eine reine Teilmenge erhalten.

Was ist eine reine Untermenge??

Die reine Teilmenge ist eine Situation, in der wir in diesem Fall ganz ja oder ganz nein erhalten.

Wir haben dies in Bezug auf einen Knoten gemacht, Was ist, wenn wir nach der Division von F2 auch ein anderes Attribut benötigen können, um zum Blattknoten zu gelangen, und wir müssen auch die Entropie dieser Werte nehmen und sie hinzufügen, um alle diese Entropiewerte dafür zu senden?? Wir haben das Konzept des Informationsgewinns.

Informationsgewinn: Der Informationsgewinn wird verwendet, um zu entscheiden, in welche Funktion bei jedem Schritt der Baumkonstruktion unterteilt wird. Einfachheit ist das Beste, Deshalb wollen wir, dass unser Baum klein ist. Es zu tun, in jedem Schritt müssen wir die Division wählen, die zu den reinsten untergeordneten Knoten führt. Ein häufig verwendetes Reinheitsmaß wird als Information bezeichnet.

Für jeden Knoten im Baum, der Informationswert misst, wie viele Informationen uns ein Merkmal über die Klasse gibt. Die Division mit dem höchsten Informationsgewinn wird als erste Division genommen und der Prozess wird fortgesetzt, bis alle sekundären Knoten rein sind oder bis der Informationsgewinn ist 0.

15051Screenshot20110-1797590

Der Algorithmus berechnet den Informationsgewinn für jede Division und die Division mit dem höchsten Informationsgewinn wird ausgewählt.

Wir können sagen, dass wir in Information Gain den Durchschnitt aller Entropie als Funktion der spezifischen Division berechnen werden.

Sv = Gesamtstichprobe nach Division wie in F2 gibt es 6 Jawohl

S = Gesamtstichprobe wie in F1 = 9 + 5 = 14

Jetzt den Informationsgewinn berechnen:

73175Screenshot20113-2733588

Diesen Weg, der Algorithmus wird dies für n Divisionen tun, und der Informationsgewinn für die Division, der größer ist, wird verwendet, um den Entscheidungsbaum zu erstellen.

Je höher der Wert des Informationsgewinns der Division, desto größer ist die Wahrscheinlichkeit, dass es für die jeweilige Division ausgewählt wird.

Gini-Verunreinigung:

Gini-Verunreinigung ist ein Maß, das verwendet wird, um Entscheidungsbäume zu konstruieren, um zu bestimmen, wie die Eigenschaften eines Datensatzes die Knoten aufteilen sollen, um den Baum zu bilden. Etwas präziser, die Gini-Verunreinigung eines Datensatzes ist eine Zahl zwischen 0-0,5, Angabe der Wahrscheinlichkeit, dass neue und zufällige Daten falsch klassifiziert werden, wenn ihnen ein zufälliges Klassenlabel entsprechend der Klassenverteilung im Datensatz zugewiesen wird.

Entropie vs. Verunreinigung von Gini

Der maximale Entropiewert ist 1, während der maximale Gini-Verunreinigungswert 0,5.

Wie die Gini Impurit

In diesem Artikel, wir haben viele Details zum Entscheidungsbaum behandelt, wie es funktioniert und die Mathematik dahinter, Attributauswahlmaße wie Entropie, Informationsgewinn, Gini-Verunreinigung mit ihren Formeln und wie der Machine-Learning-Algorithmus sie löst.

In diesem Stadium, Ich hoffe, Sie haben eine Vorstellung vom Entscheidungsbaum, einer der besten Algorithmen für maschinelles Lernen, um ein Klassifizierungsproblem zu lösen.

Wie neu, Ich rate dir, diese Techniken zu erlernen und ihre Umsetzung zu verstehen und sie dann in deinen Modellen umzusetzen.

zum besseren Verständnis, siehe https://scikit-learn.org/stable/modules/tree.html

Die in diesem Artikel gezeigten Medien sind nicht Eigentum von Analytics Vidhya und werden nach Ermessen des Autors verwendet.

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.