Gini-Verunreinigung | Entscheidungsbaumteilung mit Gini-Verunreinigung

Teilen auf Facebook
Teilen auf twittern
Teilen auf verlinktin
Teilen auf Telegramm
Teilen auf WhatsApp

Inhalt

Einführung

Im vorherigen Artikel, So teilen Sie einen Entscheidungsbaum: das Streben nach reinen Knoten, die Grundlagen von Entscheidungsbäumen verstanden, wie Teilung, die ideale Teilung und die reinen Knoten. In diesem Artikel, Wir werden einen der beliebtesten Algorithmen sehen, um die beste Division in Entscheidungsbäumen auszuwählen: Gini-Verunreinigung.

Notiz: Wenn Sie mehr daran interessiert sind, Konzepte in einem audiovisuellen Format zu lernen, wir haben diesen vollständigen Artikel im Video unten erklärt. Wenn dies nicht der Fall ist, du kannst weiterlesen.

PD: wenn Sie den vorherigen Artikel nicht gelesen haben, Es kann Ihnen schwer fallen, diesen Artikel zu verstehen.

Dann, Bisher haben wir gesehen, dass das Attribut “Klasse” kann das Schülerverhalten einschätzen, über Cricket spielen oder nicht. Und dieses Attribut funktioniert im Vergleich zu den beiden verbleibenden Variablen viel besser, Was “die Höhe” Ja “Leistung in der Klasse”. Falls du dich erinnerst, Wir haben eine Aufteilung aller verfügbaren Funktionen vorgenommen und dann jede Aufteilung verglichen, um zu entscheiden, welche die beste war. So funktioniert auch der Entscheidungsbaum-Algorithmus.

Ein Entscheidungsbaum unterteilt die Knoten zunächst in alle verfügbaren Variablen und wählt dann die Aufteilung aus, die zu den homogensten Unterknoten führt.

Homogen bedeutet hier ein ähnliches Verhalten in Bezug auf das Problem, das wir haben. Wenn die Knoten vollständig rein sind, jeder Knoten enthält nur eine einzige Klasse und, Daher, sie werden homogen sein. Das kannst du dir also intuitiv vorstellen Je höher die Reinheit der Knoten, desto größer die Homogenität.

Gini-Verunreinigung: ein Entscheidungsbaumalgorithmus zur Auswahl der besten Division

Es gibt mehrere Algorithmen, die der Entscheidungsbaum verwendet, um die beste Division für das Problem zu bestimmen.. Schauen wir uns zuerst die gebräuchlichsten und beliebtesten von allen an, Was ist es Gini-Verunreinigung. Misst die Verunreinigung der Knoten und wird berechnet als:

screenshot-from-2021-03-22-15-34-04-300x66-7397119

Lassen Sie uns zuerst verstehen, was Gini ist und dann zeige ich Ihnen, wie Sie die Gini-Verunreinigung für die Division berechnen und die richtige Division entscheiden können. Nehmen wir an, wir haben einen Knoten wie diesen-

screenshot-from-2021-03-22-15-34-52-300x179-1751390

Dann, was Gini sagt ist, dass wenn wir zufällig zwei Punkte aus einer Population auswählen, Rosa hier hervorgehoben, dann müssen sie der gleichen klasse angehören. Nehmen wir an, wir haben einen vollständig reinen Knoten

screenshot-from-2021-03-22-15-34-59-300x191-8509210

Können Sie erraten, mit welcher Wahrscheinlichkeit ein zufällig ausgewählter Punkt derselben Klasse angehört?? Gut, wird offensichtlich sein 1 da hier alle Punkte zur selben Klasse gehören. Dann, egal welche zwei punkte du gewählt hast, wird immer zu dieser Klasse gehören und, Daher, die Wahrscheinlichkeit wird immer sein 1 wenn der Knoten rein ist. Und das wollen wir mit Gini . erreichen.

Gini variiert von null bis eins, da es sich um eine Wahrscheinlichkeit handelt und je höher dieser Wert ist, je größer die Reinheit der Knoten. Ja, Natürlich, ein kleinerer Wert bedeutet kleinere reine Knoten.

Gini-Verunreinigungseigenschaften

Sehen wir uns seine Eigenschaften an, bevor wir die Gini-Verunreinigung berechnen, um die beste Teilung zu bestimmen.

Wir entscheiden die beste Aufteilung anhand der Gini-Verunreinigung und, wie wir vorher besprochen haben, Ginis Unreinheit ist:

screenshot-from-2021-03-22-15-34-04-300x66-7397119

Hier steht Gini für Reinheit und, deshalb, Ginis Verunreinigung sagt uns über die Verunreinigung der Knoten. Wenn die Gini-Verunreinigung reduziert wird, Wir können mit Sicherheit davon ausgehen, dass die Reinheit höher ist und, Daher, eine höhere Wahrscheinlichkeit der Homogenität der Knoten.

Gini funktioniert nur in den Szenarien, in denen wir haben kategorisch Ziele. Funktioniert nicht mit kontinuierlichen Zielen.

Ein sehr wichtiger Punkt, den es zu beachten gilt. Zum Beispiel, wenn Sie den Preis des Hauses oder die Anzahl der gemieteten Fahrräder vorhersagen möchten, Gini ist nicht der richtige Algorithmus. Führen Sie nur binäre Divisionen durch, ob ja oder nein, Erfolg oder Misserfolg, etc. Deswegen, teilt nur einen Knoten in zwei Unterknoten auf. Das sind die Eigenschaften der Gini-Verunreinigung.

Schritte zur Berechnung der Gini-Verunreinigung für einen Split

Sehen wir uns nun die Schritte zur Berechnung der Gini-Division an. Zuerst, berechnen wir die Gini-Verunreinigung für die Unterknoten, wie du schon besprochen hast, und du weißt es sicher schon:

Gini-Verunreinigung = 1 – Gini

Hier ist die Summe der Quadrate der Erfolgswahrscheinlichkeiten für jede Klasse und wird als:

screenshot-from-2021-03-22-15-38-59-300x53-2347120

Wenn man bedenkt, dass es n Klassen gibt.

Nachdem wir die Gini-Verunreinigung für die Unterknoten berechnet haben, berechnen wir die Gini-Verunreinigung der Division unter Verwendung der gewichteten Verunreinigung beider Unterknoten dieser Division. Hier, die Gewichtung wird durch die Anzahl der Stichprobenbeobachtungen an beiden Knoten bestimmt. Sehen wir uns diese Berechnungen an einem Beispiel an, was dir hilft das noch besser zu verstehen.

Für die Einteilung nach Klassenleistung, Erinnerst du dich, dass dies die Teilung war??

screenshot-from-2021-03-22-15-39-47-8911559

In Klassenleistung einteilen

Wir haben zwei Kategorien, einer ist “überdurchschnittlich” und das andere ist “Unterdurchschnittlich”. Wenn wir uns auf das überdurchschnittliche konzentrieren, haben 14 Studenten davon 8 sie spielen Cricket und 6 Nein. Die Wahrscheinlichkeit, Cricket zu spielen, wäre 8 geteilt durch 14, was ist in der nähe 0,57, und ähnlich, nicht Kricket spielen, die Wahrscheinlichkeit wird sein 6 geteilt durch 14, was wird herum sein 0,43. Hier der Einfachheit halber, Ich habe die Berechnungen gerundet, anstatt die genaue Zahl zu nehmen.

screenshot-from-2021-03-22-15-41-13-e1616407977480-4052443

Auf die gleiche Weise, wenn wir unterdurchschnittlich aussehen, Wir berechnen alle Zahlen und hier sind sie: die Wahrscheinlichkeit zu spielen ist 0,33 und nicht zu spielen ist 0,67-

screenshot-from-2021-03-22-15-41-25-e1616400889843-6493311

Berechnen wir nun die Gini-Verunreinigung der Unterknoten über dem Durchschnitt und hier ist die Berechnung:

screenshot-from-2021-03-22-15-45-19-5145036

Es wird sein, eins minus dem Quadrat der Erfolgswahrscheinlichkeit für jede Kategorie, Was ist es 0,57 Cricket spielen und 0,43 nicht Kricket spielen. Dann, nach dieser Berechnung, Gini kommt ans Licht 0,49. Der Knoten Lower than Average führt die gleiche Berechnung wie Gini . durch. Unterdurchschnittlich:

screenshot-from-2021-03-22-15-45-28-4577620

Kommt herum 0.44. Halte einfach inne und analysiere diese Zahlen.

Jetzt, um die Gini-Unreinheit der Division zu berechnen, wir nehmen die gewichteten Gini-Verunreinigungen von beiden Knoten, überdurchschnittlich und unterdurchschnittlich. In diesem Fall, die Gewichtung eines Knotens ist die Anzahl der Stichproben an diesem Knoten geteilt durch die Gesamtzahl der Stichproben am Elternknoten. Dann, für den überdurchschnittlichen Knoten hier, das gewicht wird 14/20, weil dort sind 14 Schüler, die über dem Durchschnitt der insgesamt 20 Studenten, die wir hatten.

Und das Gewicht unterdurchschnittlich ist 20/6. Dann, die gewichtete Gini-Verunreinigung ist das Gewicht dieses Knotens multipliziert mit der Gini-Verunreinigung dieses Knotens. Ginis gewichtete Verunreinigung für Leistung in geteilter Klasse kommt heraus:

screenshot-from-2021-03-22-15-49-28-4004518

Ähnlich, hier haben wir die Unreinheit von Gini eingefangen die Klasseneinteilung, das kommt heraus, um herum zu sein 0,32

screenshot-from-2021-03-22-15-50-25-300x247-5127699

Jetzt, wenn wir die beiden Gini-Verunreinigungen für jede Division vergleichen-

screenshot-from-2021-03-22-15-45-46-7497994

Wir sehen, dass die Gini-Unreinheit für die Einteilung in Klasse Es ist weniger. Und deshalb, die Klasse wird die erste Abteilung dieses Entscheidungsbaums sein.

screenshot-from-2021-03-22-15-54-22-5944499

In Klasse einteilen

Ähnlich, für jede Abteilung, wir berechnen die Gini-Verunreinigungen und die Division, die die minimale Gini-Verunreinigungen erzeugt, wird als Division ausgewählt. Und wissen, dass der minimale Gini-Verunreinigungswert bedeutet, dass der Knoten reiner und homogener ist.

Abschließende Anmerkungen

In diesem Artikel, Wir haben einen der beliebtesten Divisionsalgorithmen in Entscheidungsbäumen gesehen: Ginis Unreinheit. Kann nur für kategoriale Zielvariablen verwendet werden. Es gibt andere Algorithmen, die auch zum Teilen verwendet werden, Wenn Sie es verstehen möchten, können Sie es mir im Kommentarbereich mitteilen.

Wenn Sie Ihre Data Science-Reise beginnen möchten und alle Themen unter einem Dach haben möchten, deine Suche endet hier. Werfen Sie einen Blick auf den zertifizierten KI- und ML-BlackBelt von DataPeaker Plus Programm

Wenn du irgendeine Frage hast, Lass es mich im Kommentarbereich wissen!

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.