Teoria della decisione bayesiana | Introduzione alla teoria della decisione bayesiana

Contenuti

Questo post è stato pubblicato come parte del Blogathon sulla scienza dei dati

introduzione

Teoria della decisione bayesiana si riferisce all'approccio statistico basato sulla quantificazione dei trade-off tra diverse decisioni di classificazione basate sul concetto di probabilità (Teorema di Bayes) e i costi associati alla decisione.

È semplicemente una tecnica di classificazione che prevede l'uso del teorema di Bayes che viene utilizzato per trovare le probabilità condizionate.

Sopra Accreditamento dei modelli statistici, ci concentreremo sulle proprietà statistiche dei pattern che sono generalmente espressi in densità di probabilità (pdf e pmf), e questo attirerà la maggior parte della nostra attenzione in questo post e cercheremo di sviluppare gli argomenti della teoria della decisione bayesiana.

Prerequisiti

Variabile aleatoria

Una variabile casuale è una funzione che assegna un insieme ammissibile di risultati ad alcuni valori, come lanciare una moneta e ottenere il lato H come 1 e la coda a T come 0, dove 0 e 1 sono variabili casuali.

Teorema di Bayes

La probabilità condizionata di A dato B, rappresentato da P (UN | B) è la probabilità che si verifichi A dato che si è verificato B.

P (UN | B) = P (UN, B) / P (B) oh

Quando si utilizza la regola della catena, questo può anche essere scritto come:

P (UN, B) = P (UN | B) P (B) = P (B | UN) P (UN)

P (UN | B) = P (B | UN) P (UN) / P (B) ——- (1)

In cui si, P (B) = P (B, UN) + P (B, UN ') = P (B | UN) P (UN) + P (B | UN') P (UN ')

Qui, L'equazione (1) è conosciuto come Teorema di probabilità di Bayes

Il nostro obiettivo è esplorare ciascuno dei componenti inclusi in questo teorema. Esploriamo passo dopo passo:

(un) Precedente o Stato di Natura:

  • Le probabilità a priori rappresentano la probabilità che ogni classe si verifichi.
  • Quanto sopra è noto prima della procedura di formazione.
  • Lo stato di natura è una variabile casuale P (wio).
  • Se ci sono solo due classi, allora la somma di quanto sopra è P (w1) + P (w2) = 1, se le lezioni sono esaurienti.

(B) Probabilità condizionali di classe:

  • Rappresenta la probabilità della probabilità che si verifichi una caratteristica x dato che appartiene alla particolare classe. È indicato da, P (X | UN) dove x è una caratteristica particolare
  • È la probabilità della probabilità che si verifichi la caratteristica x dato che appartiene alla classe wio.
  • Qualche volta, è anche conosciuto come Probabilità.
  • È la quantità che dobbiamo esaminare durante l'addestramento dei dati. A lo largo del procedimiento de addestramento, abbiamo l'ingresso (caratteristiche) X etichettato alla rispettiva classe w e calcoliamo la probabilità di occorrenza di quell'insieme di caratteristiche data l'etichetta della classe.

(C) Prova:

  • È la probabilità che si verifichi una particolare caratteristica, In altre parole P (X).
  • Può essere calcolato usando la regola della catena come, P (X) =Su P (X | wio) P (wio)
  • Come abbiamo bisogno della probabilità di probabilità condizionata di classe, inoltre, i valori delle prove sono calcolati durante l'allenamento.

(D) Probabilità a posteriori:

  • È la probabilità che la classe A si verifichi quando si verificano determinate caratteristiche.
  • È ciò che intendiamo calcolare nella fase di test in cui abbiamo input o caratteristiche di test (l'entità data) e dobbiamo scoprire quanto è probabile che il modello addestrato possa prevedere caratteristiche che appartengono alla particolare classe wio.

Per una migliore comprensione della teoria di cui sopra, consideriamo un esempio

Descrizione del problema

Supponiamo di avere un'affermazione di un ostacolo di classificazione in cui dobbiamo categorizzare tra l'oggetto 1 e l'oggetto 2 con il dato insieme di caratteristiche. X = [X1, X2, …, Xn]T.

obbiettivo

L'obiettivo principale della progettazione di un tale classificatore è suggerire azioni quando presentate con caratteristiche invisibili., In altre parole, un oggetto non ancora visto, In altre parole, non nei dati di allenamento.

In questo esempio, w denota lo stato di natura con w = w1 per oggetto-1 e w = w2 per oggetto-2. Qui, dobbiamo sapere che in realtà, lo stato di natura è così imprevedibile che in generale si considera che quello descritto probabilisticamente fosse variabile.

Priori

  • In genere, assumiamo che ci sia qualche valore precedente P (w1) che il prossimo oggetto è l'oggetto-1 e P (w2) che l'oggetto successivo è l'oggetto-2. Se non abbiamo un altro oggetto come in questo problema, allora la somma dei suoi precedenti è 1, In altre parole, quanto sopra è esaustivo.
  • Le probabilità a priori riflettono la conoscenza a priori della probabilità che otterremo l'oggetto 1 e l'oggetto 2. Dipende dal dominio, poiché il precedente può cambiare in base al periodo dell'anno in cui viene rilevato.

Sembra un po' strano e quando si giudicano più oggetti (come in uno scenario più realistico) rende stupida questa regola decisionale in quanto prendiamo sempre la stessa decisione in base al maggiore precedente anche se sappiamo che qualsiasi altro tipo di obiettivo potrebbe anche apparire governato dalle probabilità a priori in eccesso (poiché quanto sopra è di natura esaustiva).

Considera i seguenti diversi scenari:

  • e P (?1) >>> P (?2), la nostra decisione a favore di ω1 sarà corretto la maggior parte delle volte che prevediamo.
  • Ma si P (?1) = P (?2), probabile mezzo della nostra previsione per essere corretto. Generalmente, la probabilità di errore è il minimo di P (?1) y P (?2), e più avanti in questo post, vedremo che in queste condizioni nessun'altra regola decisionale può produrre una maggiore probabilità di essere corretta.

Procedura di estrazione delle caratteristiche (Estrai funzionalità dalle immagini)

Una serie di funzionalità suggerite Lungo, larghezza, alternative per un oggettoeccetera.

Nel nostro esempio, noi usiamo il larghezza x, Che è di più discriminatorio per guidare la regola decisionale del nostro classificatore. I diversi oggetti produrranno diverse letture di ampiezza variabile e in generale vediamo questa variabilità in termini probabilistici e consideriamo anche che x sia una variabile casuale continua la cui distribuzione dipende dal tipo di oggetto. wJ, ed è espresso come p (X | ?J) (funzione di distribuzione di probabilità pdf come variabile continua) e nota come funzione di densità di probabilità condizionata di classe. Perché,

Il pdf p (X | ?1) è la funzione di densità di probabilità per la caratteristica x dato che lo stato di natura è ω1 e la stessa interpretazione per p (X | w2).

Introduzione alla teoria della decisione bayesiana |  di Rayhaan Rasheed |  Verso la scienza dei dati

Fig. Immagine che mostra pdf per entrambe le classi

Fonte immagine: Google Immagini

Supponiamo di conoscere bene le probabilità a priori P (?J) e le densità condizionate p (X | ?J). Ora, possiamo arrivare alla formula di Bayes per trovare le probabilità a posteriori:

Algoritmo Naïve Bayes: tutto quello che devi sapere - KDnuggets

Fig. Formula del teorema di Bayes

Fonte immagine: Google Immagini

La fórmula de Bayes nos da la intuición de que al observar la misura de x podemos convertir la P (?J) a dopo, indicato con P (?J| X) che è la probabilità diJ poiché il valore caratteristico x è stato misurato.

P (X | ?J) è nota come probabilità diJ rispetto all'ascia.

Il fattore evidenza, P (X), funziona semplicemente come un fattore di scala assicurando che le probabilità a posteriori si sommino a uno per tutte le classi.

Regola decisionale di Bayes

La regola decisionale date le probabilità a posteriori è la successiva

e P (w1| X)> P (w2| X) vorremmo decidere che l'oggetto appartiene alla classe w1, o altrimenti classe w2.

Probabilità di errore

Per giustificare la nostra decisione, esaminiamo la probabilità di errore, purché osserviamo x, avere,

P (errore | X) = P (w1| X) se decidiamo w2, e P (w2| X) se decidiamo w1

Come sono esaustivi e se scegliamo la natura corretta di un oggetto con probabilità P, quindi la rimanente probabilità (1-P) mostrerà quanto è probabile la decisione che non è l'oggetto deciso.

Possiamo minimizzare la probabilità di errore decidendo quale ha un posteriore maggiore e il resto poiché la probabilità di errore sarà la minima ammissibile. Quindi per finire otteniamo

P (errore | X) = min [P(?1|X),P(?2|X)]

E la nostra decisione di Bayes regola come,

Elegir1 e P (?1| X)> P (?2| X); altrimenti decidi2

Questo tipo di regola decisionale evidenzia il ruolo delle probabilità a posteriori. Con l'aiuto del teorema di Bayes, possiamo esprimere la regola in termini di probabilità a priori e condizionate.

Le prove sono irrilevanti per quanto riguarda la decisione. Come abbiamo già commentato, funziona semplicemente come un fattore di scala che indica la frequenza con cui misureremo la caratteristica con il valore x; assicura P (?1| X) + P (?2| X) = 1.

Quindi, eliminando il fattore di scala non richiesto nella nostra regola di decisione, abbiamo la regola di decisione simile del teorema di Bayes come,

Elegir1 e P (X | ?1) P (?1)> p (X | ?2) P (?2); altrimenti decidi2

Ora, consideriamo 2 casi:

  • Caso 1: Se i condizionali di classe sono uguali, In altre parole, P (X | ?1) = p (X | ?2), arriviamo quindi alla nostra regola di decisione prematura governata solo a priori.
  • Caso 2: D'altra parte, se quanto sopra è lo stesso, In altre parole, P (?1) = P (?2) allora la decisione si basa interamente su condizionali di classe p (X | ?J).

Questo completa la nostra formulazione di esempio!!

Generalizzazione delle idee di cui sopra per più classi e caratteristiche

Classificazione di Bayes: posteriore, verosimiglianza, precedenti e prove

P (wio | X) = P (X | wio) P (wio) / P (X)

Posteriore = Probabilità * Precedente / Prova

Ora discutiamo di quei casi che hanno caratteristiche multiple, così come più classi,

Lascia che siano più funzioni X1, X2, … XNord e più classi sono w1, w2,… WNord, dopo:

P (wio | X1,…. XNord) = P (X1,…. , XNord| wio) * P (wio) / P (X1,… XNord)

In cui si,

Posteriore = P (wio | X1,…. XNord)

Probabilità = P (X1,…. , XNord| wio)

Precedente = P (wio)

Prova = P (X1,… ,XNord)

In caso degli stessi modelli in entrata, potremmo aver bisogno di usare una funzione di costo drasticamente diversa, che porterà ad azioni assolutamente diverse. In genere, compiti decisionali diversi possono richiedere caratteristiche e limiti di prestazione molto diversi da quelli utili per il nostro problema di categorizzazione originale.

Quindi, nei post successivi, parleremo di Funzione di costo, Analisi del rischio, e azione decisiva che aiuterà a comprendere meglio la teoria delle decisioni di Bayes.

Note finali

Grazie per aver letto!

Se ti è piaciuto e vuoi saperne di più, visita gli altri miei post su data science e machine learning facendo clic su Collegamento

Sentiti libero di contattarmi a Linkedin, E-mail.

Tutto ciò che non è stato menzionato o vuoi condividere i tuoi pensieri? Sentiti libero di commentare qui sotto e ti ricontatterò.

Circa l'autore

Chirag Goyal

Oggi, Sto perseguendo il mio Bachelor of Technology (B.Tech) in informatica e ingegneria da Istituto indiano di tecnologia Jodhpur (IITJ). Sono molto entusiasta dell'apprendimento automatico, il apprendimento profondo e intelligenza artificiale.

Il supporto mostrato in questo post non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.