La statistica è la grammatica della scienza.
– Karl Pearson
Che cosa sono i dati??
I dati sono le informazioni raccolte attraverso diverse fonti che possono essere di natura qualitativa o quantitativa.. Soprattutto, i dati raccolti vengono utilizzati per analizzare e ottenere informazioni su un particolare argomento.
Ad esempio:
1. Dimensione del cilindro, chilometraggio, colore, eccetera. per la vendita di un'auto
2.Se le cellule del corpo sono maligne o benigne per rilevare il cancro
Tipo di dati
Data numerica
I dati numerici sono informazioni in numeri, vale a dire, numerico che si presenta come una misura quantitativa delle cose.
Ad esempio:
- Altezza e peso delle persone
- Prezzi delle azioni
un) Dati discreti
I dati discreti sono le informazioni che spesso raccontano di qualche evento, vale a dire, può assumere solo valori specifici. Sono spesso basati su numeri interi, ma non necessariamente.
Ad esempio:
- Numero di volte che è stata lanciata una moneta
- Dimensioni delle scarpe delle persone
B) Dati continui
I dati continui sono informazioni che hanno la possibilità di avere valori infiniti, vale a dire, può assumere qualsiasi valore all'interno di un intervallo.
Ad esempio:
Quanti pollici di pioggia sono caduti in un dato giorno?
Dati categoriali
Questo tipo di dati è di natura qualitativa e non ha un significato matematico intrinseco.. È una sorta di valore fisso sotto il quale viene assegnato o “classificare” un'unità di osservazione.
Ad esempio:
- Genere
- Dati binari (sì / no)
- Attributi di un veicolo come colore, chilometraggio, numero di porte, eccetera.
Dati ordinali
Questo tipo di dati è la combinazione di dati numerici e categoriali, vale a dire, dati categorici che hanno un significato matematico.
Ad esempio:
Valutazioni del ristorante da 1 un 5, essendo 1 il più basso e 5 il più alto
STATISTICHE:
Media, medio e modalità
per significare
In matematica e statistica, la media è la media delle osservazioni numeriche che è uguale alla somma delle osservazioni divisa per il numero delle osservazioni.
dove,
= | significado aritmetico | |
= | numero di valori | |
= | valori del set di dati |
Mediano
La mediana dei dati, quando disposti in valore crescente o decrescente, è l'osservazione centrale dei dati, vale a dire, il punto che separa la metà superiore dalla metà inferiore dei dati.
Per calcolare la mediana:
- Organizza i tuoi dati in ordine crescente o decrescente.
- un numero dispari di punti dati: il valore medio è la mediana.
- numero pari di punti dati: la media dei due valori medi è la mediana.
= | un elenco ordinato di valori nel set di dati | |
= | numero di valori nel set di dati |
Modo
il modo di un insieme di punti dati è il valore più frequente.
Ad esempio:
5, 2,6,5, 1,1,2,5, 3,8,5, 9,5 sono l'insieme dei punti dati. Qui 5 è il modo perché succede più frequentemente.
Varianza e deviazione standard
Differenza
Matematicamente e statisticamente, differenza è definita come la media dei quadrati delle differenze dalla media. Ma per capire, questo descrive come esteso i dati sono in un set di dati.
I passaggi per calcolare la varianza usando un esempio:
Troviamo la varianza di (1,4,5,4,8)
- Trova la media dei punti dati vale a dire (1 + 4 + 5 + 4 + 8) / 5 = 4.4
- Trova le differenze con la media vale a dire (-3,4, -0,4, 0,6, -0,4, 3,6)
- Trova le differenze al quadrato vale a dire (11,56, 0,16, 0,36, 0,16, 12,96)
- Trova la media delle differenze al quadrato vale a dire, 11,56 + 0,16 + 0,36 + 0,16 + 12,96 / 5 = 5,04
La formula per lo stesso è:
Deviazione standard
La deviazione standard misura la variazione o la diffusione dei punti dati in un set di dati. Rappresenta la vicinanza del punto dati alla media e viene calcolata come radice quadrata della varianza.
Nella scienza dei dati, la deviazione standard viene generalmente utilizzata per identificare valori anomali in un set di dati. I punti dati che si trovano all'interno di una deviazione standard della media sono considerati insoliti.
La formula per la deviazione standard è:
= | deviazione standard della popolazione | |
= | la dimensione della popolazione | |
= | ogni valore della popolazione | |
= | la popolazione significa |
Dati sulla popolazione V / s Dati campione
Dati sulla popolazione si riferisce al set di dati completo, mentre Dati di esempio si riferisce a una parte dei dati della popolazione che viene utilizzata per l'analisi. Il campionamento viene eseguito per facilitare l'analisi.
Quando si utilizzano dati campione per l'analisi, la formula della varianza è leggermente diversa. Se ci sono un totale di n campioni, dividiamo per n-1 invece di n:
= | varianza di campionamento | |
= | il valore di un'osservazione | |
= | il valore medio delle osservazioni | |
= | il numero di osservazioni |
PROBABILITÀ:
Cos'è la probabilità??
Il concetto di probabilità è estremamente semplice. Significa la probabilità che si verifichi un evento o la probabilità che si verifichi un evento.
La formula della probabilità è:
Ad esempio:
La probabilità che la moneta mostri testa quando viene lanciata è 0,5.
La probabilità condizionata
La probabilità condizionata è la probabilità che un evento si verifichi finché un altro evento si è già verificato.
La formula della probabilità condizionata:
Ad esempio:
Gli studenti di una classe hanno sostenuto due prove della materia Matematica. Nella prima prova, il 60% degli studenti passa mentre solo il 40% degli studenti supera entrambe le prove. Qual è la percentuale di studenti che hanno superato la prima prova, hanno superato la seconda prova?
Teorema di Bayes
Il teorema di Bayes è un concetto statistico molto importante utilizzato in molti settori., come la salute e le finanze. Da questo teorema è stata derivata anche la formula della probabilità condizionata che abbiamo fatto in precedenza.
Utilizzato per calcolare la probabilità di un'ipotesi in base alle probabilità di vari dati forniti nell'ipotesi.
La formula del teorema di Bayes è:
= | eventi | |
= | la probabilità di A dato B è vera | |
= | la probabilità di B dato A è vera | |
= | le probabilità indipendenti di A e B |
Ad esempio:
Supponiamo che ci sia un test HIV in grado di identificare i pazienti HIV + positivo esattamente il 99% dei tempi, e che ha anche un esito negativo con precisione per il 99% di persone sieropositive. Qui, solo il 0,3% della popolazione totale è sieropositiva.
CONCLUSIONE
Gli argomenti di statistica e probabilità trattati nell'articolo sono davvero importanti, ma ci sono molti altri argomenti come le funzioni di distribuzione di probabilità e i loro tipi, covarianza e correlazione, ecc. che non sono stati trattati qui perché richiedono un'attenzione separata a causa della loro grafica. natura.
La matematica e la statistica sono il cuore della scienza dei dati. Gli argomenti trattati in questo articolo sono alla base di molti algoritmi, formule per il calcolo degli errori e la comprensione grafica delle cose, quindi sono molto importanti e non possono essere ignorati.
Imparentato
Articoli correlati:
- Database NoSQL che ogni data scientist dovrebbe conoscere! 2020!
- Il quadrante magico 2020 Gartner è ora disponibile! Scopri i migliori strumenti di analisi
- eBook di machine learning per data scientist e ingegneri di intelligenza artificiale
- Che cos'è l'attribuzione del canale?? Modelli di attribuzione del canale