Panoramica
- Che cos'è l'algoritmo dell'albero di classificazione delle decisioni??
- Come costruire un albero decisionale da zero
- Terminologie dell'albero decisionale
- Differenza tra foresta casuale e albero decisionale
- Implementazione del codice Python degli alberi decisionali
Esistono diversi algoritmi nell'apprendimento automatico per problemi di regressione e classificazione, ma optando per L'algoritmo migliore e più efficiente per il dato set di dati è il punto principale da fare durante lo sviluppo di un buon modello di apprendimento automatico..
Uno di questi algoritmi buono per problemi di classificazione / categorico e di regressione è l'albero decisionale
Gli alberi decisionali generalmente implementano esattamente la capacità di pensiero umano quando si prende una decisione, quindi è facile da capire.
La logica dietro l'albero decisionale può essere facilmente compresa perché mostra una struttura di tipo diagramma di flusso / struttura ad albero che semplifica la visualizzazione e l'estrazione di informazioni dal processo in background.
Sommario
- Che cos'è un albero decisionale?
- Elementi dell'albero decisionale
- Come prendere una decisione da zero
- Come funziona l'algoritmo dell'albero decisionale??
- Conoscenza dell'EDA (analisi esplorativa dei dati)
- Alberi decisionali e foreste casuali
- Vantaggi della foresta decisionale
- Svantaggi della foresta decisionale
- Implementazione del codice Python
1. Che cos'è un albero decisionale?
Un albero decisionale è un algoritmo di apprendimento automatico supervisionato. Utilizzato sia negli algoritmi di classificazione che di regressione.. L'albero decisionale è come un albero con nodi. I rami dipendono da diversi fattori. Divide i dati in rami come questi fino a raggiungere un valore di soglia. Un albero decisionale è costituito dai nodi radice, nodi figli e nodi foglia.
Comprendiamo i metodi dell'albero decisionale prendendo uno scenario di vita reale
Immagina di giocare a calcio ogni domenica e di invitare sempre il tuo amico a giocare con te. Qualche volta, il tuo amico viene e gli altri no.
Il fattore di venire o meno dipende da numerose cose, come il tempo, la temperatura, vento e stanchezza. Abbiamo iniziato a prendere in considerazione tutte queste funzionalità e abbiamo iniziato a seguirle insieme alla decisione del tuo amico di venire a giocare o meno..
Puoi utilizzare questi dati per pronosticare se il tuo amico verrà a giocare a calcio o meno. La tecnica che potresti usare è un albero decisionale. Ecco come sarebbe l'albero decisionale dopo la distribuzione:
2. Elementi di un albero decisionale
Ogni albero decisionale è costituito dal seguente elenco di elementi:
un nodoNodo è una piattaforma digitale che facilita la connessione tra professionisti e aziende alla ricerca di talenti. Attraverso un sistema intuitivo, Consente agli utenti di creare profili, condividere esperienze e accedere a opportunità di lavoro. La sua attenzione alla collaborazione e al networking rende Nodo uno strumento prezioso per chi vuole ampliare la propria rete professionale e trovare progetti in linea con le proprie competenze e obiettivi....
b bordi
c Radice
d Foglie
un) nodi: È il punto in cui l'albero viene diviso in base al valore di qualche attributo / caratteristica del set di dati.
B) bordi: Dirige el resultado de una división al siguiente nodo que podemos ver en la figura"Figura" è un termine che viene utilizzato in vari contesti, Dall'arte all'anatomia. In campo artistico, si riferisce alla rappresentazione di forme umane o animali in sculture e dipinti. In anatomia, designa la forma e la struttura del corpo. Cosa c'è di più, in matematica, "figura" è legato alle forme geometriche. La sua versatilità lo rende un concetto fondamentale in molteplici discipline.... anterior que hay nodos para características como perspectiva, umidità e vento. C'è un vantaggio per ogni potenziale valore di ciascuno di questi attributi / caratteristiche.
C) Radice: Questo è il nodo dove avviene la prima divisione.
D) Fogliame: Questi sono i nodi terminali che predicono l'esito dell'albero decisionale.
3. Come costruire alberi decisionali da zero?
Quando si crea un albero decisionale, la cosa principale è selezionare l'attributo migliore dall'elenco delle caratteristiche totali del set di dati per il nodo radice e per i sottonodi. La selección de los mejores atributos se logra con la ayuda de una técnica conocida como misuraIl "misura" È un concetto fondamentale in diverse discipline, che si riferisce al processo di quantificazione delle caratteristiche o delle grandezze degli oggetti, fenomeni o situazioni. In matematica, Utilizzato per determinare le lunghezze, Aree e volumi, mentre nelle scienze sociali può riferirsi alla valutazione di variabili qualitative e quantitative. L'accuratezza della misurazione è fondamentale per ottenere risultati affidabili e validi in qualsiasi ricerca o applicazione pratica.... de selección de atributos (ASM).
Con l'aiuto di ASM, possiamo facilmente selezionare le migliori caratteristiche per i rispettivi nodi dell'albero decisionale.
Ci sono due tecniche per ASM:
un) Guadagno di informazioni
B) IndiceIl "Indice" È uno strumento fondamentale nei libri e nei documenti, che consente di individuare rapidamente le informazioni desiderate. In genere, Viene presentato all'inizio di un'opera e organizza i contenuti in modo gerarchico, compresi capitoli e sezioni. La sua corretta preparazione facilita la navigazione e migliora la comprensione del materiale, rendendolo una risorsa essenziale sia per gli studenti che per i professionisti in vari settori.... de Gini
un) Guadagno di informazioni:
1 Il guadagno di informazioni è la misurazione dei cambiamenti nel valore dell'entropia dopo la divisione / segmentaciónLa segmentación es una técnica clave en marketing que consiste en dividir un mercado amplio en grupos más pequeños y homogéneos. Esta práctica permite a las empresas adaptar sus estrategias y mensajes a las características específicas de cada segmento, mejorando así la eficacia de sus campañas. La segmentación puede basarse en criterios demográficos, psicográficos, geográficos o conductuales, facilitando una comunicación más relevante y personalizada con el público objetivo.... del conjunto de datos en función de un atributo.
2 Indica quante informazioni ci fornisce una funzione / attributo.
3 Seguendo il valore del guadagno di informazioni, la divisione dei nodi e la costruzione dell'albero decisionale sono in corso.
L'albero delle decisioni 4 cerca sempre di massimizzare il valore del guadagno di informazioni, e un nodo / l'attributo che ha il valore più alto del guadagno di informazioni viene diviso per primo. Il guadagno di informazioni può essere calcolato utilizzando la seguente formula:
Guadagno di informazioni = Entropia (S) – [(Media ponderata) *entropia(ogni caratteristica)
entropia: Entropy signifies the randomness in the set di datiun "set di dati" o conjunto de datos es una colección estructurada de información, que puede ser utilizada para análisis estadísticos, machine learning o investigación. Los datasets pueden incluir variables numéricas, categóricas o textuales, y su calidad es crucial para obtener resultados fiables. Su uso se extiende a diversas disciplinas, como la medicina, la economía y la ciencia social, facilitando la toma de decisiones informadas y el desarrollo de modelos predictivos..... Viene definito come una metrica per misurare l'impurità. L'entropia può essere calcolata come:
entropia(S)= -P(sì)log2 P(sì)- P(no) log2 P(no)
In cui si"DOVE" es un término en inglés que se traduce como "dove" in spagnolo. Se utiliza para hacer preguntas sobre la ubicación de personas, objetos o eventos. En contextos gramaticales, puede funcionar como adverbio de lugar y es fundamental en la formación de preguntas. Su correcta aplicación es esencial en la comunicación cotidiana y en la enseñanza de idiomas, facilitando la comprensión y el intercambio de información sobre posiciones y direcciones....,
S= Numero totale di campioni
P(sì)= probabilità di sì
P(no)= probabilità di no.
B) Indice Gini:
L'indice di Gini viene anche definito come una misura di impurezza/purezza utilizzata durante la creazione di un albero decisionale nel CART(noto come albero di classificazione e regressione) algoritmo.
An attribute havingEl verbo "haber" en español es un auxiliar fundamental que se utiliza para formar tiempos compuestos. Su conjugación varía según el tiempo y el sujeto, essendo "he", "has", "ha", "hemos", "habéis" e "han" las formas del presente. Cosa c'è di più, en algunas regiones, se usa "haber" como un verbo impersonal para indicar existencia, come in "ci sono" per "there is/are". Su correcta utilización es esencial para una comunicación efectiva en español.... a low Gini index value should be preferred in contrast to the high Gini index value.
Crea solo divisioni binarie, e l'algoritmo CART utilizza l'indice di Gini per creare divisioni binarie.
L'indice di Gini può essere calcolato utilizzando la formula seguente:
Indice Gini= 1- ?JPJ2
Dove pj sta per la probabilità
4. Come funziona l'algoritmo dell'albero decisionale??
L'idea alla base di qualsiasi algoritmo dell'albero decisionale è la seguente:
1. SelezionareIl comando "SELEZIONARE" es fundamental en SQL, utilizado para consultar y recuperar datos de una base de datos. Permite especificar columnas y tablas, filtrando resultados mediante cláusulas como "DOVE" y ordenando con "ORDINA PER". Su versatilidad lo convierte en una herramienta esencial para la manipulación y análisis de datos, facilitando la obtención de información específica de manera eficiente.... the best Feature using Attribute Selection Measures(ASM) per dividere i record.
2. Rendi quell'attributo/caratteristica un nodo decisionale e suddividi il set di dati in sottoinsiemi più piccoli.
3 Inizia il processo di costruzione dell'albero ripetendo questo processo in modo ricorsivo per ogni bambino fino a quando non viene raggiunta una delle seguenti condizioni :
un) Tutte le tuple appartenenti allo stesso valore di attributo.
B) Non ci sono più attributi rimanenti.
C ) Non ci sono più istanze rimanenti.
5. Alberi decisionali e foreste casuali
Gli alberi decisionali e la foresta casuale sono entrambi i metodi ad albero utilizzati in Machine Learning.
Gli alberi decisionali sono i modelli di Machine Learning utilizzati per fare previsioni esaminando ogni singola caratteristica nel set di dati, uno per uno.
Le foreste casuali d'altra parte sono una raccolta di alberi decisionali raggruppati e addestrati insieme che utilizzano ordini casuali delle caratteristiche nei set di dati forniti.
Invece di fare affidamento su un solo albero decisionale, la foresta casuale prende la previsione da ogni albero e si basa sulla maggioranza dei voti delle previsioni, e dà l'output finale. In altre parole, la foresta casuale può essere definita come una raccolta di più alberi decisionali.
6. Vantaggi dell'albero decisionale
1 È semplice da implementare e segue una struttura di tipo diagramma di flusso che ricorda il processo decisionale umano.
2 Si rivela molto utile per problemi legati alle decisioni.
3 Aiuta a trovare tutti i possibili risultati per un dato problema.
4 La pulizia dei dati negli alberi decisionali è minima rispetto ad altri algoritmi di Machine Learning.
5 Gestisce sia valori numerici che categoriali
7. Svantaggi dell'albero decisionale
1 Troppi livelli di albero decisionale lo rendono a volte estremamente complesso.
2 It may result in overfittingEl sobreajuste, o overfitting, es un fenómeno en el aprendizaje automático donde un modelo se ajusta demasiado a los datos de entrenamiento, capturando ruido y patrones irrelevantes. Esto resulta en un rendimiento deficiente en datos no vistos, ya que el modelo pierde capacidad de generalización. Para mitigar el sobreajuste, se pueden emplear técnicas como la regularización, la validación cruzada y la reducción de la complejidad del modelo.... ( che può essere risolto usando il Algoritmo della foresta casuale)
3 Per il maggior numero di etichette di classe, la complessità computazionale dell'albero decisionale aumenta.
8. Implementazione del codice Python
#Librerie di calcolo numerico
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
#Caricamento dei dati
raw_data = pd.read_csv(«cifosi.csv») raw_data.columns
Indice(['Cifosi', 'Età', 'Numero', 'Inizio'], dtype = "oggetto")
#Analisi esplorativa dei dati
raw_data.info() sns.pairplot(raw_data, tonalità="Cifosi")
# Divida el conjunto de datos en datos de addestramentoLa formazione è un processo sistematico volto a migliorare le competenze, conoscenze o abilità fisiche. Viene applicato in vari ambiti, come lo sport, Formazione e sviluppo professionale. Un programma di allenamento efficace include la pianificazione degli obiettivi, Pratica regolare e valutazione dei progressi. L'adattamento alle esigenze individuali e la motivazione sono fattori chiave per ottenere risultati di successo e sostenibili in qualsiasi disciplina.... y datos de prueba
from sklearn.model_selection import train_test_split
x = raw_data.drop('Cifosi', asse = 1)
y = raw_data['Cifosi']
x_dati_di_allenamento, x_test_data, y_training_data, y_test_data = train_test_split(X, e, test_size = 0.3)
#Entrenar el modelo de árbol de decisiones
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier()
model.fit(x_dati_di_allenamento, y_training_data)
forecasts = model.predict(x_test_data)
# Medir el rendimiento del modelo de árbol de decisiones
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
print(classificazione_report(y_test_data, predizioni))
Stampa(confusione_matrice(y_test_data, predizioni))
Con questo chiudo questo blog..
Ciao a tutti, Namaste
Il mio nome è Pranshu Sharma e sono un appassionato di data science
Grazie mille per aver dedicato del tuo tempo prezioso a leggere questo blog.. Sentiti libero di segnalare eventuali errori (Dopotutto, sono un apprendista) e fornire i commenti corrispondenti o lasciare un commento.
Dhanyvaad !!
Feedback:
E-mail: [e-mail protetta]
Il supporto mostrato in questo articolo di DataPeaker non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.
Imparentato
Articoli correlati:
- Metodi di suddivisione dell'albero decisionale | Apprendimento automatico dell'albero decisionale
- Albero decisionale Weka | Crea un albero decisionale con Weka
- Algoritmo dell'albero decisionale per la classificazione: apprendimento automatico 101
- Analisi dell'albero decisionale e clustering di K-means utilizzando il set di dati dell'iride.