È il segno di una persona veramente intelligente che le statistiche si muovano.
L'aspetto più importante di qualsiasi approccio di data science è il modo in cui le informazioni vengono elaborate. Quando parliamo di sviluppare insight dai dati, Fondamentalmente si tratta di esplorare le possibilità. Queste possibilità nella scienza dei dati sono note come Analisi statistica.
La maggior parte di noi si chiede come i modelli di apprendimento automatico possano elaborare facilmente i dati sotto forma di testo, immagini, video e altri formati altamente destrutturati. Ma, La verità è che in realtà convertiamo quei dati in una forma numerica che non è esattamente i nostri dati, ma il suo equivalente numerico. Quindi, Questo ci porta all'aspetto molto importante della scienza dei dati.
Con dati in formato numerico, Ci dà infinite possibilità di comprendere le informazioni che ne derivano. Le statistiche fungono da mezzo per comprendere i tuoi dati ed elaborarli per ottenere risultati di successo. Non è solo il potere delle statistiche che deriva dalla comprensione dei dati, ma fornisce anche metodi per misurare il successo delle nostre conoscenze, Ottieni approcci diversi allo stesso problema e ottieni l'approccio matematico giusto per i tuoi dati.
Importanza della statistica per la scienza dei dati
La maggior parte dei data scientist investe sempre di più nella pre-elaborazione dei dati. Ciò richiede una buona comprensione delle statistiche. Ci sono alcuni passaggi generali che dovrebbero sempre essere presi per elaborare qualsiasi dato.
- Identificare l'importanza delle funzionalità utilizzando vari test statistici.
- Trova la relazione tra le funzioni per eliminare la possibilità di funzioni duplicate.
- Conversione delle funzioni nel formato richiesto.
- Normalizzare e ridimensionare i dati. Questa fase comporta anche l'identificazione della distribuzione dei dati e della natura dei dati.
- Prendere i dati per un'ulteriore elaborazione utilizzando le necessarie rettifiche dei dati.
- Dopo l'elaborazione dei dati, Identificare il focus / Modello matematico corretto.
- Una volta ottenuti i risultati, I risultati vengono verificati sulle diverse scale di misurazione di precisione.
L'elaborazione dei dati dall'inizio alla fine dell'intero ciclo è un requisito statistico in ogni fase. Ecco perché un buon statistico può anche essere un buon data scientist.
Guida alle statistiche sull'apprendimento
E' sempre necessario comprendere tutti gli aspetti fondamentali della statistica. tuttavia, La maggior parte delle persone non sa bene da dove cominciare.
Questi sono i pochi concetti chiave necessari per accelerare e comprendere i fondamenti della statistica per la scienza dei dati:
Probabilità
La probabilità è la necessità fondamentale per comprendere le possibilità. per iniziare, Facciamo un esempio molto semplice: Quali sono le possibilità che la squadra A vinca la partita di calcio contro la squadra B. Per ottenere questa risposta, Potremmo chiederti di 100 Le persone danno i loro rispettivi voti? Numero di campioni. Sulla base di questi voti, Potremmo avere la possibilità di capire quale squadra riuscirà a vincere la partita.
Ma, in questo esempio, Troviamo un altro concetto molto importante noto come campionamento: Identificare il giusto gruppo di persone per votare per i risultati. Quindi, La probabilità è la possibilità che l'evento si verifichi o meno. A seconda dello scenario, Possiamo costruire diverse soluzioni intorno a questo.
Campionamento
Campionamento, Come abbiamo discusso nell'esempio sopra, Identificare il giusto gruppo di persone. La domanda è qual è il giusto gruppo di persone. Continuiamo con l'esempio precedente per lo scenario precedente, Ne abbiamo bisogno 100 persone che hanno una buona conoscenza del calcio, che conoscono la storia della squadra A e B, che non dovrebbero essere prevenuti nei confronti di una squadra a causa delle loro preferenze personali. Perciò, L'identificazione del campione corretto può essere effettuata utilizzando vari approcci statistici. Esistono diversi tipi di metodi di campionamento: Campionamento casuale semplice, Campionamento sistematico, Campionamento stratificato, Campionamento aggregato, eccetera.
Andamento e distribuzione dei dati
La distribuzione dei dati è un aspetto molto importante. La famosa distribuzione come Distribuzione Normale è molto significativa. Ad esempio, Quando si parla della distribuzione di altezza e peso nel mondo, Si tratta di dati normalmente distribuiti che mostrano la simmetria della natura. La distribuzione normale deve essere Media, Moda & MedianoLa mediana è una misura statistica che rappresenta il valore centrale di un insieme di dati ordinati. Per calcolarlo, I dati sono organizzati dal più basso al più alto e viene identificato il numero al centro. Se c'è un numero pari di osservazioni, I due valori fondamentali sono mediati. Questo indicatore è particolarmente utile nelle distribuzioni asimmetriche, poiché non è influenzato da valori estremi.... coincidono con la cima centrale. Questi dati dovrebbero essere dati molto accurati. Perciò, Identificare la distribuzione e l'asimmetria dei dati è un concetto molto importante.
Verifica di ipotesi
Se sappiamo se intraprendere un'azione o meno. Se tali azioni produrranno un risultato positivo o negativo, allora possiamo avere l'ulteriore vantaggio di fare le cose giuste. La verifica delle ipotesi fornisce l'identificazione della situazione in cui l'azione dovrebbe o non dovrebbe essere intrapresa in base ai risultati che produrrà. Ci sono altri test oltre ai test A / B, Prova Z, T test, ipotesi nullaL'ipotesi nulla è un concetto fondamentale in statistica che stabilisce un'affermazione iniziale su un parametro di popolazione. Il suo scopo è quello di essere testato e, se confutato, ci permette di accettare l'ipotesi alternativa. Questo approccio è essenziale nella ricerca scientifica, in quanto fornisce un quadro di riferimento per valutare le prove empiriche e prendere decisioni basate sui dati. La sua formulazione e analisi sono cruciali negli studi statistici.... con rilevanza simile.
Variazioni
Quando parliamo di diverse variazioni nei dati. Parliamo di distorsione, errore, Spostamento dei dati. Insieme alle variazioni nei dati, L'intervallo dei dati, La relazione all'interno dei dati. Tutto ciò spiega la variabilità dei dati. Alcuni dei termini chiave da capire qui sono: varianza, classifica, deviazione standard, Deviazione dell'errore, covarianza, correlazione, causalità, eccetera.
Regressione
La regressione in termini semplici consiste nel trovare una relazione tra variabili indipendenti e dipendenti. La regressione può essere di due tipi in termini generali: regressione lineare, regressione lineare multipla.
Regressione lineare – Y = aX + C
Regressione multilineare – Y = aX + bX1 + cX2 +.... + C
La statistica è un concetto ampio che si limita non solo a ciò che esiste, ma a ciò che può essere derivato dalle tecniche esistenti per costruire qualcosa di nuovo. Perciò, Le statistiche sono molto importanti per la scienza dei dati, in quanto aiuta a comprendere le soluzioni esistenti e a scoprire nuovi sviluppi.
C'è sempre un modo per farlo meglio: Trovalo e diventa un innovatore
Il supporto mostrato in questo articolo non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.
Imparentato
Articoli correlati:
- Statistiche per la scienza dei dati | Una guida per principianti alle statistiche per la scienza dei dati
- Statistiche degli ordini | Cosa sono le statistiche sugli ordini??
- Statistiche in Excel | 10 funzioni statistiche in Microsoft Excel
- Test statistici | Selezione delle funzioni mediante test statistici