I concetti chiave per investigare il tuo set di dati

Contenuti

Questo articolo è stato pubblicato nell'ambito del Blogathon sulla scienza dei dati.

"Non entrare nella modellazione. Primo, Comprendi ed esplora i tuoi dati! “

Su

Questo è un consiglio comune a molti data scientist. Se il tuo set di dati è disordinato, la costruzione di modelli non ti aiuterà a risolvere il tuo problema. Quello che accadrà è “spazzatura dentro, spazzatura fuori”. Per costruire un potente algoritmo di apprendimento automatico. Abbiamo bisogno di esplorare e comprendere il nostro set di dati prima di definire un compito predittivo e risolverlo.

introduzione

prima di continuare, gli scienziati dei dati trascorrono la maggior parte del loro tempo esplorando, pulizia e preparazione dei dati per la modellazione. Questo li aiuta a costruire modelli accurati e a verificare le ipotesi necessarie per adattare i modelli..

Crea visualizzazioni di dati significative, prevedere le tendenze future dai dati.

Se sei bravo a comprendere la preparazione dei dati, quasi completato 80% dal lavoro.

Sommario

  • Fai le domande giuste??
  • Analizza diversi sottoinsiemi di dati
  • Esplora le tendenze
  • FTrova i tuoi punti ciechi
  • Indaga sui perché

Fai le domande giuste

Che si tratti dei risultati del sondaggio, dati di vendita o una campagna email, hai raccolto dati per uno scopo specifico. Per estensione, applica questo scopo alle domande che poni sui dati stessi. Iniziare con alcune domande specifiche può mantenere la tua indagine focalizzata e permetterti di vedere la foresta attraverso gli alberi.. Una domanda come “Come è il mio reddito durante l'ultimo 3 anni?” È vago e consente l'esplorazione, ma anche la confusione.

Anziché, Qualcosa di simile a “quale canale genera più reddito durante l'ultimo 3 anni” ha una risposta più chiara. Le domande successive possono essere: “Quale reparto genera la maggior parte delle entrate all'anno” oh “le vendite di attrezzatura da arrampicata sono in aumento o in diminuzione quest'anno?” È importante tenere a mente una domanda specifica quando si avvia l'analisi dei dati per fornire una struttura ed evitare di imbattersi in falsi positivi.

66598uno-7540058

Analizza diversi sottoinsiemi di dati:

È più facile rilevare le relazioni se si analizzano i dati di diversi sottoinsiemi. Ad esempio, segmentare i dati sulle entrate per canale come nel grafico sopra, o per dipartimento. Sperimenta con i sottoinsiemi e le variabili che hanno più senso per le domande che hai sviluppato nel passaggio precedente..

Questo layout si concentra sul permetterti di rimanere all'interno del tuo filo di pensiero e di passare senza problemi da una domanda all'altra., senza inciampare nel formato o nelle equazioni. Può anche essere utile utilizzare quella che si chiamerebbe una tabella pivot in Excel. Nel nostro esempio di rivenditore di attrezzature per esterni, puoi passare da una visualizzazione trimestrale alle entrate per un trimestre dell'anno semplicemente selezionando da un menu a discesa. Il grafico seguente è un aggregato delle entrate per ogni trimestre compreso tra 2010 e 2013.

74333due-7673471

Esplora le tendenze

Sperimenta con le tue variabili temporali. Guarda il trimestre, il mese o la settimana, qualunque cosa abbia senso in base a quello che stai cercando. Qualche volta, quello che manca è importante quanto quello che c'è. Se ci sono buchi nell'analisi dei dati, prendi nota. Può essere utile prendere appunti durante l'analisi., promemoria di ciò che vorresti ricercare o discutere con i colleghi in seguito.

Dai un'occhiata a questa analisi trimestrale delle entrate per il dipartimento. Non è molto utile perché è difficile rilevare le tendenze.

69209tre-9997805

Questo grafico a linee annuali rende molto più facile vedere che l'arrampicata è il reparto in più rapida crescita e che le vendite di Running sono diminuite negli ultimi tre anni..

63951quattro-8815038

Trova i tuoi punti ciechi

  • È stato davvero raccolto
    per il compito che ti viene chiesto di svolgere. E ti viene chiesto di fare il
    i dati convalidano un risultato già deciso.
  • La maggior parte delle organizzazioni non pensa scientificamente. Non creano un'ipotesi e poi decidono quali dati devono raccogliere per convalidarla. Scelgono un risultato e poi adattano i dati.
  • Spesso, i dati provengono da qualcosa di completamente diverso, spesso come sottoprodotto di un processo commerciale. Quindi qualcuno ha la brillante idea “Potremmo usarlo per lavorare”
  • Analizzando il seguente grafico, il grafico illustra le informazioni sui punti ciechi in un set di dati. I dati nascosti saranno uno degli svantaggi per ottenere una soluzione. Generalmente, trovare valori anomali sarà una soluzione.

  • Correzione outlier basata sul parametro R. Il grafico a sinistra mostra i dati originali con valori anomali rilevati. Il grafico centrale utilizza un valore di rumore pari a zero per posizionare o correggere la posizione dei valori anomali nel modello lineare. Il grafico a destra posiziona il valore anomalo vicino al modello lineare a una distanza basata su un valore positivo per R (R = 0.5).
  • 87583sei-4177881

Indaga sui perché:

69565cinque-5701755

L'analisi dei dati è un processo continuo e il modo migliore per affrontarlo è cercare di commettere sempre meno errori. Probabilmente non avrai mai tutti i dati che desideri o di cui hai bisogno per rispondere a tutte le domande sulla tua attività., ma almeno puoi muoverti verso più risposte e decisioni migliori. Questo ciclo di feedback continua (chiedere, analizzare, indagare, ripetere) Può migliorare, ma non sarà mai perfetto.

Note finali

Comprendere e interpretare i dati è un passaggio molto importante nell'apprendimento automatico. In questo articolo del blog, cerchiamo di fornire una panoramica delle tecniche che possono aiutarti a comprendere meglio i tuoi dati

A seconda della taglia, dimensione e tipo dei tuoi dati, puoi scegliere l'algoritmo. Ad esempio, quando hai grandi dati grezzi, puoi usare esempi rappresentativi invece di campioni casuali. Se disponi di un set di dati di grandi dimensioni, puoi anche trovare le dimensioni importanti per comprendere campioni rappresentativi.

Diverse tecniche possono darti informazioni diverse sui tuoi dati. È tuo compito usare gli strumenti per risolvere il mistero come detective..

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.