Creazione di un modello di apprendimento automatico con Orange

Contenuti

introduzione

Con la crescente necessità di amministratori di data science, abbiamo bisogno di strumenti che eliminino il fastidio di fare scienza dei dati e lo rendano divertente. Non tutti sono disposti a imparare a programmare, anche se mi piacerebbe imparare / applicare la scienza dei dati. È qui che gli strumenti basati su GUI possono tornare utili..

Oggi, Ti presenterò un altro strumento basato su GUI: arancia. Questo strumento è ideale per i principianti che desiderano visualizzare schemi e comprendere i propri dati senza sapere effettivamente come codificare.

Nel mio articolo precedente, Ti ho presentato un altro strumento KNIME basato su GUI. Se non vuoi imparare a programmare ma applica ancora la scienza dei dati, puoi provare uno di questi strumenti.

Alla fine di questo tutorial, sarai in grado di prevedere quale persona di un determinato gruppo di persone ha diritto a un prestito con Orange.

Sommario:

  1. Perché arancione??
  2. Configurazione del sistema:
  3. Creare il tuo primo flusso di lavoro
  4. Familiarizza con le basi
    1. Dichiarazione problema
    2. Importazione dei file di dati
    3. Capire i dati
  5. Come pulisci i tuoi dati??
  6. Allena il tuo primo modello

1. Perché arancione??

Orange è una piattaforma creata per il mining e l'analisi in un flusso di lavoro basato su GUI. Ciò significa che non è necessario sapere come codificare per poter lavorare con Orange ed estrarre dati., elaborare i numeri e ottenere informazioni.

Può eseguire attività che vanno dalla visualizzazione di base alla manipolazione dei dati, trasformazioni e data mining. Consolida tutte le funzioni dell'intero processo in un unico flusso di lavoro.

La parte migliore e l'elemento di differenziazione di Orange è che ha delle immagini meravigliose. Puoi provare le sagome, mappe di calore, mappe geografiche e tutti i tipi di visualizzazioni disponibili.

scarica-5001405

2. Configurazione del sistema

Orange viene integrato con lo strumento Anaconda se lo hai installato in precedenza. Altrimenti, segui questi passaggi per scaricare Orange.

passo 1: e un https://orange.biolab.si e fai clic su Scarica.

screen-shot-2017-09-04-at-11-12-25-am-300x155-9040578

passo 2: Installa la piattaforma e configura la directory di lavoro per Orange per archiviare i tuoi file.

screen-shot-2017-09-04-at-11-14-14-am-300x168-9827524

Ecco come appare la home page di Orange. Ha opzioni che ti permettono di creare nuovi progetti, apri i progetti recenti o visualizza i campioni e inizia.

Prima di approfondire come funziona Orange, Definiamo alcuni termini chiave per aiutarci a capire:

  1. Un widget è il punto di elaborazione di base di qualsiasi manipolazione dei dati. Puoi eseguire una serie di azioni a seconda di ciò che scegli nel selettore del widget a sinistra dello schermo.
  2. Un flusso di lavoro è la sequenza di passaggi o azioni che esegui sulla tua piattaforma per svolgere un determinato compito.

Puoi anche andare su “Esempi di flusso di lavoro” nella schermata principale per vedere più flussi di lavoro dopo aver creato il primo.

Per adesso, clicca su “Nuovo” e iniziamo a creare il tuo primo flusso di lavoro.

3. Crea il tuo primo flusso di lavoro

Questo è il primo passo verso la costruzione di una soluzione a qualsiasi problema.. Dobbiamo prima capire quali passi dobbiamo compiere per raggiungere il nostro obiettivo finale. Dopo aver cliccato “Nuovo” nel passaggio precedente, questo è quello che avrei dovuto creare.

screen-shot-2017-09-04-at-11-24-53-am-300x168-8656339

Questo è il tuo flusso di lavoro vuoto in Orange. Ora, sei pronto per esplorare e risolvere qualsiasi problema trascinando qualsiasi widget dal menu widget al tuo flusso di lavoro.

4. Familiarizza con le basi

Orange è una piattaforma che può aiutarci a risolvere la maggior parte dei problemi di data science di oggi. Temas que van desde las visualizaciones más básicas hasta modelos de addestramento. Incluso puede evaluar y realizar un Apprendimento non supervisionato en conjuntos de datos:

4.1 Problema

Il problema che stiamo cercando di risolvere in questo tutorial è il problema pratico. Previsione del prestito cui si può accedere tramite questo link su Datahack.

4.2 Importazione di file di dati

Iniziamo con il primo e necessario passaggio per comprendere i nostri dati e fare previsioni: importando i nostri dati

screenshot-2017-09-04-at-11-37-28-am-300x168-2694180

passo 1: Fare clic sulla scheda “Dati” nel menu di selezione del widget e trascina il widget “File” al nostro flusso di lavoro vuoto.

passo 2: Fare doppio clic sul widget “File” e seleziona il file che vuoi caricare nel flusso di lavoro. In questo articolo, come impareremo a risolvere il problema pratico della previsione del prestito, importerò il set di dati di allenamento da esso.

screenshot-2017-09-04-at-11-39-05-am-300x169-4317941

passo 3: Una volta che puoi vedere la struttura del tuo set di dati usando il widget, torna chiudendo questo menu.

passo 4: Ora che abbiamo i dettagli .csv non elaborati, dobbiamo convertirli in un formato che possiamo usare nel nostro mining. Fare clic sulla linea tratteggiata intorno al widget “File” e trascina, e quindi fare clic in un punto qualsiasi dello spazio vuoto.

screenshot-2017-09-04-at-11-44-33-am-300x168-8941313

passo 5: Come abbiamo bisogno di una tabella di dati per visualizzare meglio i nostri risultati, clicchiamo sul widget “Tabella dati”.

passo 6: Ora fai doppio clic sul widget per visualizzare la sua tabella.

screen-shot-2017-09-04-at-11-45-47-am-300x188-1443004

purificato! Non è così?

Ora visualizziamo alcune colonne per trovare modelli interessanti nei nostri dati..

4.3 Capire i nostri dati

4.3.1 Grafico a dispersione
Fare clic sul semicerchio davanti al widget “File” e trascinalo in uno spazio vuoto nel flusso di lavoro e seleziona il widget “Diagramma di dispersione”.

screenshot-2017-09-04-at-11-58-43-am-300x222-1488332

Dopo aver creato un widget grafico a dispersione, fai doppio clic su di esso ed esplora i tuoi dati in questo modo. Puoi selezionare gli assi X e Y, colori, forme, dimensioni e molte altre manipolazioni.

screen-shot-2017-09-04-at-11-57-24-am-300x157-5943346

La trama che ho esplorato è una trama di genere per reddito, con i colori stabiliti nei livelli di istruzione. Come possiamo vedere negli uomini, La fascia di reddito più alta appartiene naturalmente ai laureati!

Anche se nelle donne, vediamo che molte delle laureate guadagnano poco o niente. Qualsiasi motivo specifico? Averigüemos usando el Diagramma di dispersione.

screen-shot-2017-09-04-at-12-03-28-pm-300x156-5083976

Una possibile ragione che ho trovato era il matrimonio. Un gran numero di laureati sposati è risultato appartenere a gruppi a reddito più basso; questo può essere dovuto a responsabilità familiari o sforzi extra. Ha perfettamente senso, verità?

4.3.2 Distribuzione

Un altro modo per visualizzare le nostre distribuzioni sarebbe il widget “distribuzioni”. Fare nuovamente clic sul semicerchio e trascinare per trovare il widget “distribuzioni”.

screen-shot-2017-09-04-at-12-22-17-pm-300x238-1857934

Ora fai doppio clic su di esso e visualizza!

screenshot-2017-09-04-at-12-21-00-pm-300x165-2936576

Quella che vediamo è una distribuzione molto interessante. Abbiamo più uomini sposati che donne nel nostro set di dati.

4.3.3 Schema del setaccio

In che modo il reddito è correlato ai livelli di istruzione?? I laureati sono pagati più degli studenti universitari??

Visualizziamo usando un diagramma a setaccio.

Fare clic e trascinare dal widget “File” e cerca “Schema del setaccio”.

screenshot-2017-05-09-at-12-44-46-pm-188x300-5364262

Una volta indossato, fai doppio clic su di esso e seleziona i tuoi assi.

screenshot-2017-05-09-at-12-44-00-pm-300x243-8275819

Questo grafico divide le sezioni di distribuzione in 4 contenitori. Le sezioni possono essere esaminate passandoci sopra con il mouse.

Ad esempio, laureati e laureandi si dividono 78% di 22%. Dopo, suddivisioni del 25% ciascuno dividendo il reddito del richiedente in 4 gruppi uguali. Ecco il compito per te, generare informazioni da questi grafici e condividerle nella sezione commenti.

Vediamo ora come pulire i nostri dati per iniziare a costruire il nostro modello.

5. Come pulisci i tuoi dati??

Qui, per scopi di pulizia, imputeremo i valori mancanti. L'imputazione è un passaggio molto importante per comprendere e utilizzare al meglio i nostri dati.

Fare clic sul widget “File” e trascina per trovare il widget “Imputare”.

screen-shot-2017-09-04-at-12-25-48-pm-300x259-3038257

Quando fai doppio clic sul widget dopo averlo posizionato, vedrai che ci sono una varietà di metodi di imputazione che puoi usare. Puoi anche usare metodi predefiniti o scegliere metodi individuali per ogni classe separatamente.

screen-shot-2017-09-04-at-12-27-13-pm-300x245-6309500

Qui, Ho selezionato il metodo predefinito come Medio per i valori numerici e Più frequente per i valori basati su testo (categorico).

È possibile selezionare tra una varietà di imputazioni come:

  1. Valore diverso
  2. Valori casuali
  3. Elimina le righe con valori mancanti
  4. Basato su modelli

Le altre cose che puoi includere nel tuo approccio all'addestramento del tuo modello sono l'estrazione e la generazione di feature.. Per una migliore comprensione, segui questo articolo sull'esplorazione dei dati e sull'ingegneria delle funzionalità (https://www.analyticsvidhya.com/blog/2016/01/guide -data-scan /)

6. Allena il suo primo modello

A partire dalle basi, prima addestreremo un modello lineare che comprenda tutte le caratteristiche solo per capire come selezionare e costruire modelli.

passo 1: Primo, necesitamos establecer una variabile de destino para aplicar la Regresión logística en ella.

passo 2: Vai al widget “File” e fai doppio clic su di esso.

passo 3: Ora, fare doppio clic su Stato_prestito colonna e selezionala come variabile di destinazione. Fare clic su Applica.

screen-shot-2017-09-04-at-12-51-49-pm-300x188-1508198

passo 4: Una volta che abbiamo impostato la nostra variabile target, trova i dati del widget puliti “Imputare” come segue e posiziona il widget “Regressione logistica”.

screenshot-2017-09-04-at-12-54-29-pm-300x201-4478971

passo 5: Haga doble clic en el widget y seleccione el tipo de regolarizzazione que desea realizar.

  1. Regressione della cresta:
    • Eseguire la regolarizzazione L2, vale a dire, aggiunge una sanzione equivalente a quadrato di magnitudo coefficienti
    • Obiettivo di minimizzazione = LS Obj + un * (somma dei quadrati dei coefficienti)
  2. Regressione ad anello:
    • Eseguire la regolarizzazione L1, vale a dire, aggiunge una sanzione equivalente a valore assoluto della grandezza coefficienti
    • Obiettivo di minimizzazione = LS Obj + un * (somma del valore assoluto dei coefficienti)

Per una migliore comprensione di questi, visita il link sulle regressioni Ridge e Lasso https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-ridge-lasso-regression-python/

Ho scelto Ridge per la mia analisi, puoi scegliere tra i due.

passo 6: Prossimo, clicca sul widget “Imputare” oh “Regressione logistica” e trova il widget “Test e punteggio”. Assicurati di collegare entrambi dati e modello per testare il widget.

screen-shot-2017-09-04-at-1-13-31-pm-300x297-3329802passo 7: Ora, clicca sul widget “Test e punteggio” per vedere come sta andando il tuo modello.

screen-shot-2017-09-04-at-1-18-37-pm-300x192-3224961

passo 8: Per visualizzare meglio i risultati, trascina e rilascia dal widget “Test e punteggio” trovare “Matrice di confusione”.

screen-shot-2017-09-04-at-1-22-25-pm-300x268-9791735

passo 9: Una volta posizionato, cliccaci sopra per vedere i tuoi risultati.

screen-shot-2017-09-04-at-1-12-12-pm-300x205-3666275

In questo modo, puoi provare diversi modelli e vedere con che precisione funzionano.

Proviamo a valutare, Come funzionerebbe una foresta casuale?? Cambia il metodo di modellazione in Random Forest e guarda la matrice di confusione.

screen-shot-2017-09-04-at-8-39-27-pm-300x205-7677697

Sembra decente, ma la regressione logistica ha funzionato meglio.

Possiamo riprovare con una macchina vettoriale di supporto.

screen-shot-2017-09-04-at-8-39-35-pm-300x207-6169114

Meglio della foresta casuale, ma ancora non buono come il modello di regressione logistica.

Qualche volta, i metodi più semplici sono i migliori, Non è così?

Ecco come sarebbe il tuo flusso di lavoro finale una volta terminato l'intero processo.

screen-shot-2017-09-04-at-8-39-44-pm-300x170-2611183

Per chi vuole lavorare in gruppo, possono anche esportare i tuoi flussi di lavoro e inviarli ad amici che possono lavorare al tuo fianco.

screenshot-2017-09-04-at-1-26-49-pm-300x165-4164872

Il file risultante ha l'estensione (.come) e può essere aperto in qualsiasi altra configurazione Orange.

Note finali

Orange è una piattaforma che può essere utilizzata per quasi tutti i tipi di analisi, ma la cosa più importante, per immagini belle e facili. In questo articolo, esploriamo come visualizzare un set di dati. È stato anche eseguito un modello predittivo, utilizzando un predittore di regressione logistica, SVM e un predittore forestale casuale per trovare lo stato del prestito per ogni persona di conseguenza.

Spero che questo tutorial ti abbia aiutato a scoprire aspetti del problema che potresti non aver capito o che non hai capito prima. È molto importante comprendere la pipeline della scienza dei dati e i passaggi che intraprendiamo per addestrare un modello, E questo dovrebbe sicuramente aiutarti a costruire presto modelli predittivi migliori!!

Imparare, ingaggiare, competere, e fatti assumere!

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.