Verifica di ipotesi | Test di ipotesi per principianti di Data Science

Contenuti

Questo articolo è stato pubblicato nell'ambito del Blogathon sulla scienza dei dati.

introduzione

untitled-design-4-8851911

Prima di andare a quello, sappiamo cosa significa esattamente Ipotesi:

"L'ipotesi è descritta come una soluzione consigliata per un incidente indefinibile che non si adatta alla teoria attuale".

La definizione effettiva di verifica delle ipotesi è per cui un analista verifica un'ipotesi relativa a un parametro della popolazione. La metodologia adottata dall'analista dipende dalla natura dei dati utilizzati e dal motivo dell'analisi..

problema-5283606

Verifica di ipotesi

Passaggi per eseguire il test di ipotesi:

  1. Definire ipotesi nulle e alternative

  2. Sfoglia i dati, controllare le ipotesi

  3. Calcola statistica test

  4. Determinare il valore p corrispondente

  5. Prendere una decisione sull'ipotesi nulla.

Per eseguire tutti questi passaggi, facciamo un esempio per capire facilmente.

Problema: Tenendo conto degli adulti italiani della fascia di età di 18 un 30 anni che vivono in Italia, Gli uomini hanno un indice di massa corporea? (IMC) significa significativamente più alto delle donne?

Qui la popolazione è italiana adulti (18-30) in Italia e il parametro di interesse è l'indice di massa corporea (IMC)

passo 1: definire ipotesi

  • Nullo: Non c'è differenza nel BMI medio
    h (0): tu1= U2 [U1 rappresenta il BMI medio della popolazione per i maschi e U2 rappresenta il BMI medio della popolazione per le femmine]
    qui H (0) dice che sono uguali tra loro
  • Alternativa: c'è una differenza significativa nel BMI medio
    h (UN): U1=U2 [U1 rappresenta l'IMC medio della popolazione per i maschi e U2 rappresenta l'IMC medio della popolazione per le femmine]

    qui H (UN) dice che non sono uguali tra loro

  • Livello di significatività = 5%

passo 2: esaminare i dati e verificare le ipotesi

In questo passaggio, i dati sono stati filtrati per includere solo gli adulti italiani che erano tra 18 e 30 anni. Dopo di che, dobbiamo fare alcuni calcoli statistici come la media, il minimo, il massimo, la deviazione standard e la dimensione del campione sia per i maschi che per le femmine.

Alcune delle ipotesi che dobbiamo verificare sono le seguenti:

  • I campioni sono considerati campioni casuali semplici
  • I campioni sono indipendenti l'uno dall'altro
  • Entrambe le popolazioni di risposta sono approssimativamente normali o le dimensioni del campione sono abbastanza grandi.

passo 3: Calcola statistica test:

La statistica test è una misura della distanza tra la nostra statistica campione e il nostro parametro di popolazione ipotizzato., in termini di errori standard stimati.

  • Z = Migliore stima – valore nullo / errore standard stimato
  • La migliore stima è la differenza tra la media del campione statistico maschile e femminile
  • Il valore nullo è l'ipotetico valore nullo
  • L'errore standard stimato per due medie può cambiare a seconda dell'approccio che utilizzeremo..
  • I due approcci che è possibile utilizzare sono l'approccio cluster e l'approccio non cluster..
  • L'approccio combinato prevede che la varianza di due popolazioni sia uguale.
  • L'approccio non cluster consiste nell'eliminare l'assunzione di uguali varianze.

passo 4: Determinazione del valore P:

Il p-value è determinato assumendo che l'ipotesi nulla sia vera, è la probabilità di osservare una statistica test di un valore (INSIEME A) o più estremo.

Quindi calcoleremo questa probabilità usando la distribuzione Z dove dF = n1+ n2-2

dobbiamo controllare entrambi i lati poiché è un'ipotesi alternativa a due lati perché anche la nostra alternativa non è la stessa. così, dobbiamo controllare sia la coda superiore che quella inferiore della nostra distribuzione.

Il grafico di distribuzione appare come mostrato di seguito con la dimensione del campione e i gradi di libertà corrispondenti:

28679valore-p-8901206

Curva di distribuzione

Nel grafico sopra, possiamo vedere sia il nostro valore statistico di prova positivo che sotto il valore statistico di prova negativo. Questo significa che se la differenza nel BMI medio della popolazione tra uomini e donne fosse davvero zero, allora se quell'ipotesi nulla fosse vera, allora è abbastanza probabile osservare una differenza nelle medie campionarie del valore statistico del test o qualcosa di più estremo. C'è quasi un 20 percentuale di possibilità di vederlo perché questo valore è così grande, andremo avanti e non rifiuteremo il valore nullo.

passo 5: prendere una decisione

Se il P-value è maggiore del livello di significatività, il che significa che ci sono prove deboli contro il valore nullo. Perciò, non rifiutiamo l'ipotesi nulla.

Quindi, In sintesi, i test di ipotesi sono usati per testare le teorie su un parametro di interesse. Qui, quel parametro è la differenza nella media della popolazione. I passaggi di base per eseguire questo test di ipotesi. Primo, definiamo le nostre ipotesi. Dopo, esamineremo i nostri dati controllando le nostre ipotesi e calcolando la nostra statistica di test. Con questa statistica di prova, determineremo il nostro valore p corrispondente e, Finalmente, prenderemo una decisione in base a questo valore.

Le ipotesi per il test t a due campioni per le medie della popolazione sono che entrambi i set di dati devono essere due campioni casuali semplici e indipendenti l'uno dall'altro.. Dobbiamo garantire che entrambe le popolazioni di risposta siano distribuite normalmente. Altrimenti, dobbiamo assicurarci di avere almeno una grande dimensione del campione in modo da poter applicare il teorema del limite centrale. Se le nostre variazioni di popolazione sono le stesse o no, è anche fondamentale determinare se utilizziamo un approccio cluster o non cluster. Finalmente, dobbiamo sapere come interpretare il p-value, la decisione e la nostra conclusione finale. Questi sono tutti molto importanti quando si esegue un test di ipotesi..

Per più articoli, guarda questo profilo:

https://likhitakakanuru.medium.com/

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.