Una semplice spiegazione del clustering K-Means e dei suoi vantaggi

Contenuti

Questo articolo è stato pubblicato nell'ambito del Blogathon sulla scienza dei dati.

Panoramica

K-means clustering è un algoritmo di apprendimento automatico non supervisionato molto famoso e potente. Utilizzato per risolvere molti problemi complessi di machine learning senza supervisione. Prima di iniziare, diamo un'occhiata ai punti che andremo a capire.

dbscan-clustering-algorithm-8040109

Sommario

  • introduzione
  • Come funziona l'algoritmo K-means??
  • Come scegliere il valore di K?
    • Metodo del gomito.
    • Metodo Silhouette.
  • Vantaggi di k-means.
  • Svantaggi di k-means.

introduzione

Comprendiamo l'algoritmo di raggruppamento K-means con la sua semplice definizione.

Un algoritmo di raggruppamento K-means tenta di raggruppare elementi simili sotto forma di raggruppamenti. Il numero di gruppi è rappresentato da K.

Facciamo un esempio. Supponiamo che tu sia andato in un negozio di verdure per comprare alcune verdure. Lì vedrai diversi tipi di verdure. L'unica cosa che noterai è che le verdure saranno organizzate in un gruppo dei loro tipi.. Come tutte le carote saranno tenute in un unico posto, le patate saranno conservate con i loro tipi e così via. Se noti qui, allora scoprirai che stanno formando un gruppo o un gruppo, dove ciascuna delle verdure rimane all'interno del suo tipo di gruppo formando i gruppi.

Ora lo capiremo con l'aiuto di una bella figura.

56854k20means20clustering-4556146

Ora, guarda le due figure sopra. che hai osservato Parliamo della prima figura. La prima figura mostra i dati prima di applicare l'algoritmo di raggruppamento k-means. Qui le tre diverse categorie sono disordinate. Quando vedi quei dati nel mondo reale, non potrai scoprire le diverse categorie.

Ora, guarda la seconda figura (figura 2). In questo modo vengono visualizzati i dati dopo l'applicazione dell'algoritmo di pool K-Means. Si può vedere che i tre diversi elementi sono classificati in tre diverse categorie chiamate gruppi.

Come funziona l'algoritmo di clustering K-media??

k-significa che il raggruppamento tenta di raggruppare tipi simili di elementi sotto forma di raggruppamenti. Trova la somiglianza tra gli elementi e raggruppali in gruppi. L'algoritmo di raggruppamento K-means funziona in tre fasi. Vediamo quali sono questi tre passaggi.

  1. Selezionare i valori di k.
  2. Inizializzare i centroidi.
  3. Seleziona il gruppo e trova la media.

Comprendiamo i passaggi precedenti con l'aiuto della figura perché una buona immagine è migliore delle migliaia di parole.

34513k20means-2610053

Capiremo ogni figura una per una.

  • La figura 1 mostra la rappresentazione dei dati di due elementi diversi. Il primo elemento è stato mostrato in blu e il secondo elemento è stato mostrato in rosso. Qui scelgo il valore di K in modo casuale come 2. Esistono diversi metodi con cui possiamo scegliere i valori k corretti.
  • Nella figura 2, unisce i due punti selezionati. Ora, per scoprire il centroide, tracceremo una linea perpendicolare a quella linea. I punti verranno spostati nel loro centroide. Se guardi lì, Vedrai che alcuni dei punti rossi ora si spostano sui punti blu. Ora, Questi punti appartengono al gruppo di elementi blu.
  • Lo stesso processo continuerà nella figura 3. Uniremo i due punti e tracceremo una linea perpendicolare a quella e troveremo il centroide. Ora i due punti si sposteranno nel loro centroide e di nuovo alcuni dei punti rossi si trasformeranno in punti blu.
  • Lo stesso processo sta accadendo nella figura 4. Questo processo continuerà fino a quando non avremo due gruppi completamente diversi da questi gruppi..

NOTA: Si noti che il raggruppamento K-means utilizza il metodo della distanza euclidea per scoprire la distanza tra i punti.

Troverete molte spiegazioni sulla distanza euclidea su Internet.

Come scegliere il valore di K?

Uno dei compiti più impegnativi di questo algoritmo di raggruppamento è scegliere i valori corretti di k. Quale dovrebbe essere il valore k corretto? Come scegliere il valore k? Troviamo la risposta a queste domande. Se si scelgono valori k a caso, può essere giusto o sbagliato. Se scegli il valore sbagliato, influenzerà direttamente le prestazioni del modello. Quindi, Esistono due metodi con cui è possibile selezionare il valore corretto di K.

  1. Metodo del gomito.
  2. Metodo Silhouette.

Ora, comprendiamo entrambi i concetti uno per uno in dettaglio.

Metodo del gomito

Il gomito è uno dei metodi più famosi con cui è possibile selezionare il valore corretto di k e aumentare le prestazioni del modello. Eseguiamo anche la regolazione degli iperparametri per scegliere il miglior valore di k. Vediamo come funziona questo metodo a gomito.

È un metodo empirico per trovare il miglior valore di k. raccogliere l'intervallo di valori e trarne il meglio. Calcola la somma del quadrato dei punti e calcola la distanza media.

39268gomito20metodo-9207416

Quando il valore di k è 1, la somma del quadrato all'interno del gruppo sarà alta. All'aumentare del valore di k, la somma del valore quadrato all'interno del gruppo diminuirà.

Finalmente, tracceremo un grafico tra i valori k e la somma del quadrato all'interno del gruppo per ottenere il valore k. Esamineremo attentamente il grafico. È compatibile con vari linguaggi come Python, il nostro grafico diminuirà bruscamente. Tale punto è considerato come un valore di k.

12158WCSS-5721506

Metodo Silhouette

Il metodo della silhouette è in qualche modo diverso. Il metodo del gomito prende anche l'intervallo di k-valori e disegna il grafico della siluetta. Calcola il coefficiente di silhouette di ogni punto. Calcola la distanza media dei punti all'interno del tuo gruppo a (io) e la distanza media dei punti dal prossimo gruppo più vicino chiamato b (io).

75194Silhouette-3423284

Nota: Il a (io) Il valore deve essere inferiore a B (io) valore, cos'è ai << con un.

Ora, abbiamo i valori di un (io) e B (io). calcoleremo il coefficiente di siluetta utilizzando la seguente formula.

59928senza titolo-1909945

Ora, possiamo calcolare il coefficiente di siluetta di tutti i punti nei gruppi e tracciare il grafico della siluetta. Questo grafico sarà utile anche per rilevare i valori anomali. La trama della silhouette è tra -1 un 1.

Si noti che per il coefficiente di siluetta uguale a -1 è lo scenario peggiore.

Guarda il grafico e controlla quale dei valori k è più vicino a 1.

75098silhouette20metodo-7848691

Cosa c'è di più, Controllare il grafico con meno valori anomali, il che significa un valore meno negativo. Quindi scegli quel valore k per il tuo modello da sintonizzare.

Vantaggi dei mezzi K

  1. È molto semplice da implementare.
  2. È scalabile per un set di dati di grandi dimensioni e anche più veloce per set di dati di grandi dimensioni.
  3. adatta molto spesso nuovi esempi.
  4. Generalizzazione di cluster per diverse forme e dimensioni.

Svantaggi dei mezzi K

  1. È sensibile ai valori anomali.
  2. Scegliere manualmente i valori k è un lavoro difficile.
  3. All'aumentare del numero di dimensioni, la sua scalabilità diminuisce.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.