Modelli di classificazione in machine learning

Contenuti

Questo articolo è stato pubblicato nell'ambito del Blogathon sulla scienza dei dati.

introduzione

classificazione-machine-learning-algorithms-6195900

E impariamo strada facendo.

Le compagnie, allo stesso modo, applicare il loro apprendimento passato al processo decisionale relativo alle operazioni e alle nuove iniziative, ad esempio, relativi alla classificazione dei clienti, prodotti, eccetera. tuttavia, qui diventa un po' più complesso poiché ci sono più parti interessate coinvolte. Cosa c'è di più, le decisioni devono essere precise a causa del loro impatto più ampio.

Con l'evoluzione della tecnologia digitale, gli esseri umani hanno sviluppato molteplici risorse; le macchine sono una di queste. Abbiamo imparato (e continuiamo) utilizzare macchine per analizzare i dati utilizzando le statistiche per generare informazioni utili per aiutare a prendere decisioni e previsioni.

Le macchine non fanno magie con i dati, ma applicano semplici statistiche.

In tale contesto, Esaminiamo un paio di algoritmi di apprendimento automatico comunemente usati per la classificazione e cerchiamo di capire come funzionano e come si confrontano tra loro.. Ma prima, capiamo alcuni concetti correlati.

Concetti basilari

Il apprendimento supervisionato se define como la categoría de análisis de datos donde el resultado objetivo es conocido o etiquetado, ad esempio, indipendentemente dal fatto che il cliente abbia acquistato o meno un prodotto. tuttavia, quando l'intenzione è di raggrupparli in base a ciò che tutti hanno acquistato, quindi diventa Incustodito. Questo può essere fatto per esplorare la relazione tra i clienti e ciò che acquistano.

Sia la classificazione che la regressione appartengono all'apprendimento supervisionato, ma il primo si applica quando il risultato è finito, mentre l'ultimo è per infiniti possibili valori di risultato (ad esempio, prevedere il valore in dollari dell'acquisto).

La distribución normal es la conocida distribución en forma de campana de una variabile continua. Questa è una naturale estensione dei valori che normalmente assume un parametro..

Poiché i predittori possono avere diversi intervalli di valori, ad esempio, il peso umano può essere fino a 150 (kg), ma l'altezza tipica è solo fino a 6 (torte); i valori hanno bisogno di scala (sulla rispettiva media) per renderli comparabili.

La collinearità è quando due o più predittori sono correlati., vale a dire, i loro valori si muovono insieme.
I valori anomali sono valori eccezionali di un predittore, che può o non può essere vero.

regressione-vs-classificazione-in-machine-learning-4568442

Regressione logistica

La regressione logistica utilizza il potere della regressione per eseguire la classificazione e lo fa molto bene da diversi decenni., per rimanere tra i modelli più popolari. Uno dei motivi principali del successo del modello è il suo potere di spiegabilità., vale a dire, evidenziare il contributo dei singoli predittori, quantitativamente.

A differenza della regressione che utilizza i minimi quadrati, il modello utilizza la massima verosimiglianza per adattare una curva sigmoidea sulla distribuzione della variabile target.

Data la suscettibilità del modello alla multicollinearità, applicarlo passo dopo passo risulta essere un approccio migliore per finalizzare i predittori scelti del modello.

L'algoritmo è una scelta popolare in molte attività di elaborazione del linguaggio naturale., ad esempio, rilevamento del linguaggio tossico, classificazione degli argomenti, eccetera.

trama-3541612

Reti neurali artificiali

Reti neurali artificiali (ANN), così chiamati perché cercano di imitare il cervello umano, sono adatti per set di dati grandi e complessi. La sua struttura è composta da strati di nodi intermedi (simile ai neuroni) che sono assegnati insieme ai più ingressi e all'uscita di destinazione.

È un algoritmo di autoapprendimento, poiché inizia con una mappatura iniziale (a caso) e, da allora, adatta in modo iterativo i relativi pesi per ottimizzare l'output desiderato per tutti i record. Las múltiples capas brindan una capacidad de apprendimento profondo para poder extraer características de nivel superior de los datos sin procesar.

L'algoritmo fornisce un'elevata precisione di previsione, ma è necessario ridimensionare le funzioni numeriche. Ha ampie applicazioni in campi futuri, inclusa la visione artificiale, PNL, riconoscimento vocale, eccetera.

rete-neurale-artificiale-3501528_960_720-5695969

foresta casuale

Una foresta casuale è un insieme affidabile di più alberi decisionali. (o CARRELLO); sebbene più popolare per la classificazione rispetto alle applicazioni di regressione. Qui, i singoli alberi sono costruiti mediante insacco (vale a dire, aggregazione di bootstrap che non sono altro che set di dati di treni multipli creati dal campionamento dei registri con sostituzione) e dividi usando meno funzioni. La risultante foresta diversificata di alberi non correlati mostra una variazione ridotta; così, è più robusto contro il cambiamento dei dati e traduce la sua precisione di previsione in nuovi dati.

tuttavia, l'algoritmo non funziona bene per set di dati che hanno molti valori anomali, qualcosa che deve essere affrontato prima di costruire il modello.

Ha ampie applicazioni in campo finanziario., Al dettaglio, aeronautico e molti altri.

foresta7-3591004

Bayes ingenuo

Anche se potremmo non rendercene conto, questo è l'algoritmo più comunemente usato per filtrare le email di spam!!

Applicare quella che è nota come probabilità a posteriori usando il teorema di Bayes per fare la categorizzazione dei dati non strutturati. e così facendo, presuppone ingenuamente che i predittori siano indipendenti, cosa potrebbe non essere vero.

El modelo funciona bien con un pequeño conjunto de datos de addestramento, a condizione che tutte le classi del predittore categoriale siano presenti.

ingenuo-2432706

KNN

L'algoritmo K-Nemost Neighbor (KNN) prevede in base al numero specificato (K) dei punti dati vicini più vicini. Qui, la preelaborazione dei dati è significativa in quanto influisce direttamente sulle misurazioni della distanza. Non come gli altri, il modello non ha formula matematica, nessuna capacità descrittiva.

Qui, il parametro 'k’ deve essere scelto con saggezza; poiché un valore inferiore a quello ottimale porta a una distorsione, mentre un valore più alto influisce sull'accuratezza della previsione.

Si tratta di un modello semplice e abbastanza accurato, preferito principalmente per insiemi di dati più piccoli, a causa degli enormi calcoli coinvolti nei predittori continui.

a livello semplice, KNN può essere utilizzato in un ambiente predittivo bivariato, ad esempio, altezza e peso, per determinare il sesso dato un campione.

knn2-8013361

Mettere tutto insieme

Le prestazioni di un modello dipendono principalmente dalla natura dei dati. Poiché i set di dati aziendali hanno più predittori e sono complessi, è difficile identificare un algoritmo che funzioni sempre bene. Perciò, la prassi abituale è provare diversi modelli e trovare quello giusto.

Come confronto di alto livello, los aspectos más destacados que se encuentran generalmente para cada uno de los algoritmos anteriores se anotan a continuación en algunos parametri comunes; per servire come un'istantanea di riferimento rapido.

32753screenshot202020-11-2820at2010-09-4020pm-9816822

Cosa c'è di più, ci sono più leve, ad esempio, bilancio dei dati, imputazione, convalida incrociata, impostato tra algoritmi, più grande set di dati del treno, eccetera. più l'ottimizzazione dell'iperparametro del modello, che può essere utilizzato per ottenere precisione. Mentre l'accuratezza della previsione può essere più desiderabile, le aziende cercano anche predittori eccezionali che contribuiscano (vale a dire, un modello descrittivo o la sua conseguente spiegabilità).

Finalmente, l'apprendimento automatico consente agli esseri umani di decidere quantitativamente, prevedere e guardare oltre l'ovvio, anche se a volte anche in aspetti precedentemente sconosciuti.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.