Funzione di costo | Tipi di funzione di costo Apprendimento automatico

Contenuti

Questo articolo è stato pubblicato nell'ambito del Blogathon sulla scienza dei dati.

gxle-8713139

Credito: https://gifer.com/en/GxlE

Il 2 preguntas principales que surgieron en mi mente mientras trabajaba en este artículo fueron¿Por qué estoy escribiendo este artículo?” & “¿En qué se diferencia mi artículo de otros artículos?” Bene, la función de costo es un concepto importante de entender en los campos de la ciencia de datos, pero mientras seguía mi posgrado, me di cuenta de que los recursos disponibles en línea son demasiado generales y no cubren mis necesidades por completo.

Tuve que consultar muchos artículos y ver algunos videos en YouTube para tener una idea de las funciones de costos. Di conseguenza, quería reunir las funciones “Quella”, “Cuándo”, “Come” e “Come mai” de Cost que pueden ayudar a explicar este tema con mayor claridad. Spero che il mio articolo funga da sportello unico per le funzioni di costo!

Guida fittizia alla funzione di costo 🤷‍♀️

Funzione di perdita: si usa quando ci riferiamo all'errore di un singolo esempio di addestramento.
Funzione di costo: si usa per fare riferimento a una media delle funzioni di perdita su un intero set di dati di addestramento.

Ma, Perché * usare una funzione di costo?

Perché diavolo abbiamo bisogno di una funzione di costo? Consideriamo uno scenario in cui vogliamo classificare i dati. Supponiamo di avere i dettagli di altezza e peso di alcuni cani e gatti. Usiamo queste 2 caratteristiche per classificarli correttamente. Se tracciamo questi record, otteniamo il seguente Diagramma di dispersione:

788061-3068436

Fig 1: Diagramma a dispersione per l'altezza e il peso di vari cani e gatti

I punti blu sono gatti e i punti rossi sono cani. Di seguito sono riportate alcune soluzioni al problema di classificazione precedente.

547072-9983286

Fig: Soluzioni probabili al nostro problema di classificazione

Essenzialmente, i tre classificatori hanno una precisione molto alta, ma la terza soluzione è la migliore perché non classifica erroneamente alcun punto. Il motivo per cui classifica perfettamente tutti i punti è che la linea è quasi esattamente tra i due gruppi e non più vicina a nessuno dei due gruppi. Qui entra in gioco il concetto di funzione di costo. La funzione di costo ci aiuta a raggiungere la soluzione ottimale. La funzione di costo è la tecnica per valutare “le prestazioni del nostro algoritmo / modello”.

Prende sia i risultati previsti dal modello sia i risultati reali, e calcola quanto il modello si è sbagliato nella sua previsione. Produce un numero più alto se le nostre previsioni differiscono molto dai valori reali. Man mano che regoliamo il nostro modello per migliorare le previsioni, la funzione di costo funge da indicatore di quanto il modello è migliorato. Questo è essenzialmente un problema di ottimizzazione. Le strategie di ottimizzazione mirano sempre a 'minimizzare la funzione di costo'.

Tipi di funzione di costo

Hay muchas funciones de costos en el aprendizaje automático y cada una tiene sus casos de uso dependiendo de si se trata de un problema de regresión o de clasificación.

  1. Función de costo de regresión
  2. Funciones de costo de clasificación binaria
  3. Funciones de costos de clasificación de clases múltiples

1. Función de costo de regresión:

Los modelos de regresión tratan de predecir un valor continuo, ad esempio, lo stipendio di un dipendente, el precio de un automóvil, la predicción de un préstamo, eccetera. Una función de costo utilizada en el problema de regresión se llamaFunción de costo de regresión”. Se calculan sobre el error basado en la distancia de la siguiente manera:

Error = y-y

In cui si,

E – Entrada real

Y ‘- Salida prevista

Las funciones de costo de regresión más utilizadas se encuentran a continuación,

1.1 Error medio (ME)

  • En esta función de costo, se calcula el error para cada dato de entrenamiento y luego se deriva el valor medio de todos estos errores.
  • Calcular la media de los errores es la forma más sencilla e intuitiva posible.
  • Los errores pueden ser tanto negativos como positivos. Perciò, pueden cancelarse entre sí durante la suma, lo que da un error medio cero para el modelo.
  • Perciò, esta no es una función de costo recomendada, pero sienta las bases para otras funciones de costo de los modelos de regresión.

1.2 Root errore quadratico medio (MSE)

  • Esto mejora el inconveniente que encontramos en el error medio anterior. Aquí se calcula un cuadrado de la diferencia entre el valor real y el predicho para evitar cualquier posibilidad de error negativo.
  • Si misura come la media della somma delle differenze al quadrato tra le previsioni e le osservazioni reali.
965844-3606584

MSE = (somma degli errori al quadrato) / n

  • È anche noto come perdita L2.
  • In MSE, dato che ogni errore viene elevato al quadrato, aiuta a penalizzare anche piccole deviazioni nella previsione rispetto a MAE. Ma se il nostro set di dati contiene valori anomali che contribuiscono a errori di previsione maggiori, allora elevare al quadrato questo errore amplificherà ulteriormente l'errore molte volte e porterà anche a un MSE più alto.
  • Perciò, possiamo dire che è meno robusto ai valori anomali.

1.3 Errore assoluto medio (Amico)

634276-6325349

MAE = (somma degli errori assoluti) / n

2. Funzioni di costo per problemi di classificazione

Las funciones de costo que se usan en los problemas de clasificación son diferentes de las que usamos en el problema de regresión. Una función de pérdida comúnmente utilizada para la clasificación es la pérdida de entropía cruzada. Entendamos la entropía cruzada con un pequeño ejemplo. Considere que tenemos un problema de clasificación de 3 clases como sigue.

Classe (arancia, Mela, tomate)

El modelo de aprendizaje automático dará una distribución de probabilidad de estas 3 clases como salida para un dato de entrada dado. La clase con mayor probabilidad se considera una clase ganadora para la predicción.

Salida = [P(arancia),P(Mela),P(Tomato)]

La distribución de probabilidad real para cada clase se muestra a continuación.

Naranja = [1,0,0]

Manzana = [0,1,0]

Tomate = [0,0,1]

Si durante la fase de entrenamiento, la classe di input è Pomodoro, La distribuzione di probabilità predetta dovrebbe tendere verso la distribuzione di probabilità reale di Pomodoro. Se la distribuzione di probabilità predetta non si avvicina a quella reale, il modello deve aggiustare il proprio peso. Qui è dove l'entropia incrociata diventa uno strumento per calcolare quanto la distribuzione di probabilità predetta sia lontana da quella reale. In altre parole, L'entropia incrociata può essere considerata come un modo per misurare la distanza tra due distribuzioni di probabilità. L'immagine seguente illustra l'intuizione dietro l'entropia incrociata:

121667-2694188

FIGURA 3: Intuizione dietro l'entropia incrociata (credito – machinelearningknowledge.ai)

Questa era solo un'intuizione dietro l'entropia incrociata. Ha origine nella teoria dell'informazione. Ora, con questa comprensione dell'entropia incrociata, vediamo ora le funzioni di costo di classificazione.

2.1 Funciones de costos de clasificación de clases múltiples

Questa funzione di costo viene utilizzata nei problemi di classificazione in cui ci sono più classi e i dati di input appartengono a una sola classe. Capiremo ora come si calcola l'entropia incrociata. Supponiamo che il modello dia la distribuzione di probabilità come mostrato di seguito per 'n'’ classi e per un dato di input particolare D.

8357111-2884960

E la distribuzione di probabilità reale o obiettivo dei dati D è

9109912-8629865

Dopo, l'entropia incrociata per quel dato particolare D si calcola come

Perdita di entropia incrociata (e, P) = – eT Registrazione (P)

= – (e1 tronco d'albero (P1) + e2 tronco d'albero (P2) + …… eNord tronco d'albero (PNord))

7256614-3792894

Definiamo ora la funzione di costo usando l'esempio precedente (Consulta l'immagine dell'entropia incrociata - Fig3),

P (tomate) = [0.1, 0.3, 0.6]

e (tomate) = [0, 0, 1]

Entropia incrociata (e, P) = – (0 * Log (0.1) + 0 * Log (0.3) + 1 * Log (0.6)) = 0.51

La formula precedente misura solo l'entropia incrociata per una singola osservazione o dato di input. L'errore nella classificazione dell'intero modello è dato dall'entropia incrociata categoriale, che non è altro che la media dell'entropia incrociata per tutti i N dati di addestramento.

Entropia incrociata categoriale = (Somma dell'entropia incrociata per N dati) / n

2.2 Funzione di costo dell'entropia incrociata binaria

L'entropia incrociata binaria è un caso speciale dell'entropia incrociata categoriale quando c'è solo un output che assume semplicemente un valore binario di 0 oh 1 per denotare rispettivamente la classe negativa e positiva. Ad esempio, classificazione tra gatto e cane.

Supponiamo che l'uscita reale sia indicata da una singola variabile e, allora l'entropia incrociata per un dato particolare D può essere semplificata nel seguente modo:

Entropia incrociata (D) = – e * tronco d'albero (P) quando y = 1

Entropia incrociata (D) = – (1-e) * tronco d'albero (1-P) quando y = 0

L'errore nella classificazione binaria per l'intero modello è dato dall'entropia incrociata binaria, che non è altro che la media dell'entropia incrociata per tutti i N dati di addestramento.

Entropia incrociata binaria = (Somma dell'entropia incrociata per N dati) / n

conclusione

Spero che questo articolo ti sia stato utile! Fammi sapere cosa ne pensi, soprattutto se ci sono suggerimenti per migliorare. Puoi connetterti con me su LinkedIn: https://www.linkedin.com/in/saily-shah/ e qui c'è il mio profilo GitHub: https://github.com/sailyshah

Il supporto mostrato in questo articolo non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.

Altoparlante dati