SKLearn | Scikit-Learn en Python

Contenuti

Questo articolo ha subito una serie di modifiche!!

Inizialmente stavo scrivendo su un argomento diverso (relacionado con la analítica). Avevo quasi finito di scriverlo. avevo investito circa 2 ore e scritto un articolo medio. Se l'avessi fatto dal vivo, avrei fatto bene! Ma qualcosa in me mi ha impedito di farlo vivere. Non ero soddisfatto del risultato. L'articolo non trasmette come mi sento a riguardo 2015 e quanto potrebbe essere utile DataPeaker per l'apprendimento dell'analisi quest'anno.

Quindi, Ho messo quell'articolo nel Cestino e ho iniziato a ripensare a quale argomento avrebbe reso giustizia. Questo è quello che ho finito con: lasciami scrivere fantastici articoli e guide su quello che è stato il mio più grande apprendimento 2014: Libreria Scikit-learn o sklearn in Python. Questo è stato il mio più grande apprendimento perché ora è lo strumento che uso per qualsiasi progetto di machine learning su cui lavoro.

La creazione di questi articoli non sarebbe solo immensamente utile per i lettori del blog, mi sfiderebbe anche a scrivere di qualcosa a cui sono ancora relativamente nuovo. Mi piacerebbe anche sentire da te lo stesso: Qual è stato il tuo più grande apprendimento in 2014 e vorresti condividerlo con i lettori di questo blog?

Che cos'è scikit-learn o sklearn?

Scikit-learn è probabilmente la libreria più utile per l'apprendimento automatico in Python. La libreria sklearn contiene molti strumenti efficienti per l'apprendimento automatico e la modellazione statistica, che includono la classificazione, regressione, raggruppamento e riduzione dimensionale.

Nota che sklearn viene utilizzato per creare modelli di apprendimento automatico. Non dovrebbe essere usato per leggere i dati, manipolarli e riassumerli. Ci sono librerie migliori per questo (ad esempio, NumPy, panda, eccetera.)

scikit-learn-logo-1376243

Componenti di scikit-learn:

Scikit-learn viene caricato con molte funzionalità. Ecco alcuni di loro per aiutarti a capire la diffusione:

  • Algoritmos de apprendimento supervisionato: Pensa a qualsiasi algoritmo di apprendimento automatico supervisionato di cui hai sentito parlare e ci sono buone probabilità che faccia parte di scikit-learn. Da modelli lineari generalizzati (ad esempio, regressione lineare), supporta macchine vettoriali (SVM), alberi decisionali e metodi bayesiani, fanno tutti parte della cassetta degli attrezzi di scikit-learn. La diffusione degli algoritmi di machine learning è uno dei motivi principali dell'elevato utilizzo di scikit-learn. Ho iniziato a usare scikit per risolvere problemi di apprendimento supervisionato e lo consiglierei anche a persone che non conoscono scikit / apprendimento automatico.
  • Convalida incrociata: Esistono diversi metodi per verificare l'accuratezza dei modelli monitorati su dati non visti utilizzando sklearn.
  • Algoritmi di apprendimento non supervisionato: Ancora, è disponibile un'ampia varietà di algoritmi di apprendimento automatico, dalla piscina, analisi fattoriale, analisi delle componenti principali alle reti neurali non supervisionate.
  • Più set di dati sui giocattoli: Questo è stato utile durante l'apprendimento di scikit-learn. Avevo imparato SAS utilizzando vari set di dati accademici (ad esempio, il set di dati IRIS, il set di dati sui prezzi delle case di Boston). Averli a portata di mano durante l'apprendimento di una nuova biblioteca ha aiutato molto..
  • Estrazione delle caratteristiche: Scikit-impara a estrarre funzionalità da immagini e testo (ad esempio, sacco di parole)

Comunità / organizzazioni che utilizzano scikit-learn:

Uno dei motivi principali dietro l'uso di strumenti open source è la grande comunità che ha. Lo stesso vale anche per sklearn. Ci sono in giro 35 collaboratori di scikit-learn fino ad oggi, il più notevole è Andreas Mueller (PS Andy cheat sheet sull'apprendimento automatico è una delle migliori visualizzazioni per comprendere lo spettro degli algoritmi di apprendimento automatico).

Ci sono diverse organizzazioni come Evernote, Inria e AWeber mostrati in scikit impara la home page come utenti. Ma penso davvero che l'uso effettivo sia molto di più.

Oltre a queste comunità, ci sono diversi incontri in giro per il mondo. C'era anche un Concorso di conoscenza Kaggle, che si è conclusa di recente, ma potrebbe comunque essere uno dei posti migliori per iniziare a giocare con la biblioteca.

ml_map-3573562

Foglio informativo sull'apprendimento automatico: consulte la imagen original para obtener una mejor risoluzione

Esempio veloce:

Ora che capisci l'ecosistema ad alto livello, lasciatemi illustrare l'uso di sklearn con un esempio. L'idea è semplicemente quella di illustrare la semplicità d'uso di sklearn. Vedremo vari algoritmi e i modi migliori per usarli in uno degli articoli che seguono..

Costruiremo una regressione logistica sul dataset IRIS:

passo 1: importare le librerie pertinenti e leggere il set di dati

importa numpy come np

importa matplotlib come plt

da set di dati di importazione sklearn

delle metriche di importazione di sklearn

de sklearn.linear_model import LogisticRegression

Abbiamo importato tutte le librerie. Prossimo, leggiamo il dataset:

dataset = set di datos.load_iris ()

passo 2: Comprendere il set di dati esaminando distribuzioni e diagrammi

Sto saltando questi passaggi per ora. puoi leggere questo articolo se vuoi imparare l'analisi esplorativa.

passo 3: Creare un modello di regressione logistica sul set di dati ed effettuare stime

model.fit (set di dati.dati, dataset.target)

previsto = dataset.target

predicted = model.predict (dataset.data)

passo 4: Stampare la matrice di confusione

Stampa (metrics.classification_report (previsto, Previsto))

Stampa (metrics.confusion_matrix (previsto, Previsto))

Note finali:

Questa era una panoramica di una delle librerie di apprendimento automatico più potenti e versatili di Python. È stato anche il più grande apprendimento che ho fatto 2014. Qual è stato il tuo più grande apprendimento in 2014? Condividilo con il gruppo attraverso i commenti qui sotto.

Sei entusiasta di imparare e usare Scikit-learn?? Se è così, restate sintonizzati per gli altri articoli di questa serie.

Un rapido promemoria: se non hai controllato Discussione di Vidhya analitico tuttavia, dovresti farlo ora. Gli utenti si stanno unendo velocemente, quindi prendi il nome utente che vuoi prima che lo prenda qualcun altro.

Se ti piace quello che hai appena letto e vuoi continuare a imparare l'analisi, iscriviti alle nostre email, Seguici su Twitter o come il nostro pagina Facebook.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.