Concetti di statistica e probabilità per la scienza dei dati

Contenuti

La statistica è la grammatica della scienza.
– Karl Pearson

Che cosa sono i dati??

95476what-is-data_ver_1-1698555

Crediti immagine

I dati sono le informazioni raccolte attraverso diverse fonti che possono essere di natura qualitativa o quantitativa.. Soprattutto, i dati raccolti vengono utilizzati per analizzare e ottenere informazioni su un particolare argomento.

Ad esempio:

1. Dimensione del cilindro, chilometraggio, colore, eccetera. per la vendita di un'auto

2.Se le cellule del corpo sono maligne o benigne per rilevare il cancro

Tipo di dati

Data numerica

I dati numerici sono informazioni in numeri, vale a dire, numerico che si presenta come una misura quantitativa delle cose.

Ad esempio:

  1. Altezza e peso delle persone
  2. Prezzi delle azioni

un) Dati discreti

I dati discreti sono le informazioni che spesso raccontano di qualche evento, vale a dire, può assumere solo valori specifici. Sono spesso basati su numeri interi, ma non necessariamente.

Ad esempio:

  1. Numero di volte che è stata lanciata una moneta
  2. Dimensioni delle scarpe delle persone

B) Dati continui

I dati continui sono informazioni che hanno la possibilità di avere valori infiniti, vale a dire, può assumere qualsiasi valore all'interno di un intervallo.

Ad esempio:

Quanti pollici di pioggia sono caduti in un dato giorno?

Dati categoriali

Questo tipo di dati è di natura qualitativa e non ha un significato matematico intrinseco.. È una sorta di valore fisso sotto il quale viene assegnato o “classificare” un'unità di osservazione.

Ad esempio:

  1. Genere
  2. Dati binari (sì / no)
  3. Attributi di un veicolo come colore, chilometraggio, numero di porte, eccetera.

Dati ordinali

Questo tipo di dati è la combinazione di dati numerici e categoriali, vale a dire, dati categorici che hanno un significato matematico.

Ad esempio:

Valutazioni del ristorante da 1 un 5, essendo 1 il più basso e 5 il più alto

STATISTICHE:

Media, medio e modalità

per significare

In matematica e statistica, la media è la media delle osservazioni numeriche che è uguale alla somma delle osservazioni divisa per il numero delle osservazioni.

A = frac {1} {n} limiti di somma_ {io = 1} ^ n a_i significa Statistica e probabilità

dove,

UN = significado aritmetico
Nord = numero di valori
ai = valori del set di dati

Mediano

La mediana dei dati, quando disposti in valore crescente o decrescente, è l'osservazione centrale dei dati, vale a dire, il punto che separa la metà superiore dalla metà inferiore dei dati.

Per calcolare la mediana:

  • Organizza i tuoi dati in ordine crescente o decrescente.
  • un numero dispari di punti dati: il valore medio è la mediana.
  • numero pari di punti dati: la media dei due valori medi è la mediana.

mediana statistica e probabilità

X = un elenco ordinato di valori nel set di dati
Nord = numero di valori nel set di dati

Modo

il modo di un insieme di punti dati è il valore più frequente.

Ad esempio:

5, 2,6,5, 1,1,2,5, 3,8,5, 9,5 sono l'insieme dei punti dati. Qui 5 è il modo perché succede più frequentemente.

Varianza e deviazione standard

Differenza

Matematicamente e statisticamente, differenza è definita come la media dei quadrati delle differenze dalla media. Ma per capire, questo descrive come esteso i dati sono in un set di dati.

I passaggi per calcolare la varianza usando un esempio:

Troviamo la varianza di (1,4,5,4,8)

  1. Trova la media dei punti dati vale a dire (1 + 4 + 5 + 4 + 8) / 5 = 4.4
  2. Trova le differenze con la media vale a dire (-3,4, -0,4, 0,6, -0,4, 3,6)
  3. Trova le differenze al quadrato vale a dire (11,56, 0,16, 0,36, 0,16, 12,96)
  4. Trova la media delle differenze al quadrato vale a dire, 11,56 + 0,16 + 0,36 + 0,16 + 12,96 / 5 = 5,04

La formula per lo stesso è:

Varianza statistica e probabilità

Deviazione standard

La deviazione standard misura la variazione o la diffusione dei punti dati in un set di dati. Rappresenta la vicinanza del punto dati alla media e viene calcolata come radice quadrata della varianza.

Nella scienza dei dati, la deviazione standard viene generalmente utilizzata per identificare valori anomali in un set di dati. I punti dati che si trovano all'interno di una deviazione standard della media sono considerati insoliti.

La formula per la deviazione standard è:

Deviazione standard statistica e probabilità

sigma = deviazione standard della popolazione
Nord = la dimensione della popolazione
x_i = ogni valore della popolazione
mu = la popolazione significa

Dati sulla popolazione V / s Dati campione

Dati sulla popolazione si riferisce al set di dati completo, mentre Dati di esempio si riferisce a una parte dei dati della popolazione che viene utilizzata per l'analisi. Il campionamento viene eseguito per facilitare l'analisi.

Quando si utilizzano dati campione per l'analisi, la formula della varianza è leggermente diversa. Se ci sono un totale di n campioni, dividiamo per n-1 invece di n:

Dati statistici e probabilistici sulla popolazione

S^ 2 = varianza di campionamento
x_i = il valore di un'osservazione
sbarra {X} = il valore medio delle osservazioni
Nord = il numero di osservazioni

PROBABILITÀ:

25667v4-460px-calcola-probabilità-step-2-version-5-jpg-4341515

Crediti immagine

Cos'è la probabilità??

Il concetto di probabilità è estremamente semplice. Significa la probabilità che si verifichi un evento o la probabilità che si verifichi un evento.

La formula della probabilità è:

12-4112115

Ad esempio:

La probabilità che la moneta mostri testa quando viene lanciata è 0,5.

La probabilità condizionata

La probabilità condizionata è la probabilità che un evento si verifichi finché un altro evento si è già verificato.

La formula della probabilità condizionata:

Probabilità condizionale utilizzando tabelle a due fattori (Articolo) |  accademia Khan

Ad esempio:

Gli studenti di una classe hanno sostenuto due prove della materia Matematica. Nella prima prova, il 60% degli studenti passa mentre solo il 40% degli studenti supera entrambe le prove. Qual è la percentuale di studenti che hanno superato la prima prova, hanno superato la seconda prova?

50266screenshot202021-04-162020201708-2647063

Teorema di Bayes

Il teorema di Bayes è un concetto statistico molto importante utilizzato in molti settori., come la salute e le finanze. Da questo teorema è stata derivata anche la formula della probabilità condizionata che abbiamo fatto in precedenza.

Utilizzato per calcolare la probabilità di un'ipotesi in base alle probabilità di vari dati forniti nell'ipotesi.

La formula del teorema di Bayes è:

Teorema di Bayes

UN, B = eventi
P (UN | B) = la probabilità di A dato B è vera
P (B | UN) = la probabilità di B dato A è vera
P (UN),PP (B) = le probabilità indipendenti di A e B

Ad esempio:

Supponiamo che ci sia un test HIV in grado di identificare i pazienti HIV + positivo esattamente il 99% dei tempi, e che ha anche un esito negativo con precisione per il 99% di persone sieropositive. Qui, solo il 0,3% della popolazione totale è sieropositiva.

95224bayes20real-9834283

CONCLUSIONE

Gli argomenti di statistica e probabilità trattati nell'articolo sono davvero importanti, ma ci sono molti altri argomenti come le funzioni di distribuzione di probabilità e i loro tipi, covarianza e correlazione, ecc. che non sono stati trattati qui perché richiedono un'attenzione separata a causa della loro grafica. natura.

La matematica e la statistica sono il cuore della scienza dei dati. Gli argomenti trattati in questo articolo sono alla base di molti algoritmi, formule per il calcolo degli errori e la comprensione grafica delle cose, quindi sono molto importanti e non possono essere ignorati.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.