Uma explicação simples do agrupamento K-Means e suas vantagens

Conteúdo

Este artigo foi publicado como parte do Data Science Blogathon.

Visão geral

O cluster K-means é um algoritmo de aprendizado de máquina não supervisionado muito famoso e poderoso. Usado para resolver muitos problemas complexos de aprendizado de máquina não supervisionado. Antes de começar, Vamos dar uma olhada nos pontos que vamos entender.

dbscan-clustering-algorithm-8040109

Tabela de conteúdo

  • Introdução
  • Como funciona o algoritmo K-means?
  • Como escolher o valor de K?
    • Método do cotovelo.
    • Método Silhouette.
  • Vantagens do k-means.
  • Desvantagens do k-means.

Introdução

Vamos entender o algoritmo de agrupamento K-means com sua definição simples.

Um algoritmo de agrupamento K-means tenta agrupar itens semelhantes na forma de clusters. O número de grupos é representado por K.

Vamos dar um exemplo. Suponha que você foi a uma loja de vegetais para comprar alguns vegetais. Lá você verá diferentes tipos de vegetais. A única coisa que você notará é que os vegetais serão organizados em um grupo de seus tipos. Como todas as cenouras ficarão no mesmo lugar, batatas vão ficar com seus tipos e assim por diante. Se você notar aqui, então você descobrirá que eles estão formando um grupo ou grupo, onde cada um dos vegetais é mantido dentro de seu tipo de grupo, formando os grupos.

Agora vamos entender isso com a ajuda de uma bela figura.

56854k20 significa 20clustering-4556146

Agora, olhe para as duas figuras acima. O que você observou? Vamos falar sobre a primeira figura. A primeira figura mostra os dados antes de aplicar o algoritmo de agrupamento k-means. Aqui, as três categorias diferentes são confusas. Quando você vê esses dados no mundo real, você não será capaz de descobrir as diferentes categorias.

Agora, olhe para a segunda figura (figura 2). Isso mostra os dados após a aplicação do algoritmo de agrupamento K-means. você pode ver que os três itens diferentes são classificados em três categorias diferentes que são chamadas de grupos.

Como funciona o algoritmo de agrupamento K-means?

O agrupamento K-means tenta agrupar tipos semelhantes de itens na forma de agrupamentos. Encontre a semelhança entre os elementos e agrupe-os em grupos. O algoritmo de agrupamento K-means funciona em três etapas. Vamos ver quais são essas três etapas.

  1. Selecione os valores k.
  2. Inicialize os centróides.
  3. Selecione o grupo e encontre a média.

Vamos entender os passos acima com a ajuda da figura porque uma boa imagem é melhor do que milhares de palavras.

34513k20means-2610053

Vamos entender cada figura uma por uma.

  • A figura 1 mostra a representação de dados de dois elementos diferentes. o primeiro item é mostrado em azul e o segundo item é mostrado em vermelho. Aqui eu escolho o valor de K aleatoriamente como 2. Existem diferentes métodos pelos quais podemos escolher os valores de k corretos.
  • Na figura 2, junte os dois pontos selecionados. Agora, para encontrar o centróide, vamos desenhar uma linha perpendicular a essa linha. Os pontos irão para o centroide. Se você olhar lá, você verá que alguns dos pontos vermelhos agora se movem para os pontos azuis. Agora, esses pontos pertencem ao grupo de elementos azuis.
  • O mesmo processo continuará na figura 3. Vamos juntar os dois pontos e desenhar uma reta perpendicular a ela e encontrar o centróide. Agora os dois pontos se moverão para seu centroide e novamente alguns dos pontos vermelhos se transformarão em pontos azuis.
  • O mesmo processo está acontecendo na figura 4. Este processo continuará até que tenhamos dois grupos completamente diferentes desses grupos.

NOTA: Observe que o agrupamento de K-médias usa o método da distância euclidiana para descobrir a distância entre os pontos.

Você encontrará muitas explicações sobre a distância euclidiana na Internet.

Como escolher o valor de K?

Uma das tarefas mais desafiadoras deste algoritmo de agrupamento é escolher os valores corretos de k. Qual deve ser o valor de k correto? Como escolher o valor k? Vamos encontrar a resposta para essas perguntas. Se você escolher os valores k aleatoriamente, pode ser certo ou errado. Se você escolher o valor errado, afetará diretamente o desempenho do seu modelo. Então, Existem dois métodos pelos quais você pode selecionar o valor correto de k.

  1. Método do cotovelo.
  2. Método Silhouette.

Agora, vamos entender os dois conceitos um por um em detalhes.

Método do cotovelo

O cotovelo é um dos métodos mais famosos pelo qual você pode selecionar o valor correto de k e aumentar o desempenho do seu modelo. Também realizamos ajuste de hiperparâmetros para escolher o melhor valor de k. Vamos ver como esse método de cotovelo funciona.

É um método empírico para encontrar o melhor valor de k. colete a gama de valores e tire o melhor deles. Calcule a soma do quadrado dos pontos e calcule a distância média.

39268elbow20method-9207416

Quando o valor de k é 1, a soma do quadrado dentro do grupo será alta. Conforme o valor de k aumenta, a soma do valor quadrado dentro do grupo diminuirá.

Finalmente, vamos traçar um gráfico entre os valores k e a soma do quadrado dentro do grupo para obter o valor k. Vamos examinar o gráfico cuidadosamente. Algum dia, nosso gráfico diminuirá abruptamente. Esse ponto será considerado como um valor de k.

12158wcss-5721506

Método Silhouette

O método da silhueta é um pouco diferente. O método do cotovelo também leva o intervalo de valores k e desenha o gráfico de silhueta. Calcule o coeficiente de silhueta de cada ponto. Encontre a distância média de pontos dentro de seu grupo para (eu) e a distância média dos pontos para seu próximo grupo mais próximo chamado b (eu).

75194silhueta-3423284

Observação: O A (eu) o valor deve ser menor que b (eu) valor, o que é ai << com um.

Agora, nós temos os valores de um (eu) e B (eu). vamos calcular o coeficiente de silhueta usando a seguinte fórmula.

59928sem título-1909945

Agora, podemos calcular o coeficiente de silhueta de todos os pontos nos grupos e traçar o gráfico de silhueta. Este gráfico também será útil para detectar outliers. O enredo da silhueta está entre -1 uma 1.

Observe que para o coeficiente de silhueta igual a -1 é o pior caso.

Olhe para o gráfico e verifique qual dos valores k está mais próximo de 1.

75098silhueta20 método-7848691

O que mais, verifique o gráfico que tem o mínimo de outliers, o que significa um valor menos negativo. Em seguida, escolha o valor de k para o seu modelo ajustá-lo.

Vantagens do K-means

  1. É muito fácil de implementar.
  2. É escalonável para um grande conjunto de dados e também mais rápido para grandes conjuntos de dados.
  3. adaptar novos exemplos com muita frequência.
  4. Generalização de clusters para diferentes formas e tamanhos.

Desvantagens do K-means

  1. É sensível a outliers.
  2. Escolher os valores k manualmente é um trabalho árduo.
  3. Conforme o número de dimensões aumenta, sua escalabilidade diminui.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.