Big Data

Uma explicação simples do agrupamento K-Means e suas vantagens

Este artigo foi publicado como parte do Data Science Blogathon.

Visão geral

O cluster K-means é um algoritmo de aprendizado de máquina não supervisionado muito famoso e poderoso. Usado para resolver muitos problemas complexos de aprendizado de máquina não supervisionado. Antes de começar, Vamos dar uma olhada nos pontos que vamos entender.

Tabela de conteúdo

Introdução
Como funciona o algoritmo K-means?
Como escolher o valor de K?
- Método do cotovelo.
- Método Silhouette.
Vantagens do k-means.
Desvantagens do k-means.

Introdução

Vamos entender o algoritmo de agrupamento K-means com sua definição simples.

Um algoritmo de agrupamento K-means tenta agrupar itens semelhantes na forma de clusters. O número de grupos é representado por K.

Vamos dar um exemplo. Suponha que você foi a uma loja de vegetais para comprar alguns vegetais. Lá você verá diferentes tipos de vegetais. A única coisa que você notará é que os vegetais serão organizados em um grupo de seus tipos. Como todas as cenouras ficarão no mesmo lugar, batatas vão ficar com seus tipos e assim por diante. Se você notar aqui, então você descobrirá que eles estão formando um grupo ou grupo, onde cada um dos vegetais é mantido dentro de seu tipo de grupo, formando os grupos.

Agora vamos entender isso com a ajuda de uma bela figura.

Agora, olhe para as duas figuras acima. O que você observou? Vamos falar sobre a primeira figura. A primeira figura mostra os dados antes de aplicar o algoritmo de agrupamento k-means. Aqui, as três categorias diferentes são confusas. Quando você vê esses dados no mundo real, você não será capaz de descobrir as diferentes categorias.

Agora, olhe para a segunda figura (figura 2). Isso mostra os dados após a aplicação do algoritmo de agrupamento K-means. você pode ver que os três itens diferentes são classificados em três categorias diferentes que são chamadas de grupos.

Como funciona o algoritmo de agrupamento K-means?

O agrupamento K-means tenta agrupar tipos semelhantes de itens na forma de agrupamentos. Encontre a semelhança entre os elementos e agrupe-os em grupos. O algoritmo de agrupamento K-means funciona em três etapas. Vamos ver quais são essas três etapas.

Selecione os valores k.
Inicialize os centróides.
Selecione o grupo e encontre a média.

Vamos entender os passos acima com a ajuda da figura porque uma boa imagem é melhor do que milhares de palavras.

Vamos entender cada figura uma por uma.

A figura 1 mostra a representação de dados de dois elementos diferentes. o primeiro item é mostrado em azul e o segundo item é mostrado em vermelho. Aqui eu escolho o valor de K aleatoriamente como 2. Existem diferentes métodos pelos quais podemos escolher os valores de k corretos.
Na figura 2, junte os dois pontos selecionados. Agora, para encontrar o centróide, vamos desenhar uma linha perpendicular a essa linha. Os pontos irão para o centroide. Se você olhar lá, você verá que alguns dos pontos vermelhos agora se movem para os pontos azuis. Agora, esses pontos pertencem ao grupo de elementos azuis.
O mesmo processo continuará na figura 3. Vamos juntar os dois pontos e desenhar uma reta perpendicular a ela e encontrar o centróide. Agora os dois pontos se moverão para seu centroide e novamente alguns dos pontos vermelhos se transformarão em pontos azuis.
O mesmo processo está acontecendo na figura 4. Este processo continuará até que tenhamos dois grupos completamente diferentes desses grupos.

NOTA: Observe que o agrupamento de K-médias usa o método da distância euclidiana para descobrir a distância entre os pontos.

Você encontrará muitas explicações sobre a distância euclidiana na Internet.

Como escolher o valor de K?

Uma das tarefas mais desafiadoras deste algoritmo de agrupamento é escolher os valores corretos de k. Qual deve ser o valor de k correto? Como escolher o valor k? Vamos encontrar a resposta para essas perguntas. Se você escolher os valores k aleatoriamente, pode ser certo ou errado. Se você escolher o valor errado, afetará diretamente o desempenho do seu modelo. Então, Existem dois métodos pelos quais você pode selecionar o valor correto de k.

Método do cotovelo.
Método Silhouette.

Agora, vamos entender os dois conceitos um por um em detalhes.

Método do cotovelo

O cotovelo é um dos métodos mais famosos pelo qual você pode selecionar o valor correto de k e aumentar o desempenho do seu modelo. Também realizamos ajuste de hiperparâmetros para escolher o melhor valor de k. Vamos ver como esse método de cotovelo funciona.

É um método empírico para encontrar o melhor valor de k. colete a gama de valores e tire o melhor deles. Calcule a soma do quadrado dos pontos e calcule a distância média.

Quando o valor de k é 1, a soma do quadrado dentro do grupo será alta. Conforme o valor de k aumenta, a soma do valor quadrado dentro do grupo diminuirá.

Finalmente, vamos traçar um gráfico entre os valores k e a soma do quadrado dentro do grupo para obter o valor k. Vamos examinar o gráfico cuidadosamente. Algum dia, nosso gráfico diminuirá abruptamente. Esse ponto será considerado como um valor de k.

Método Silhouette

O método da silhueta é um pouco diferente. O método do cotovelo também leva o intervalo de valores k e desenha o gráfico de silhueta. Calcule o coeficiente de silhueta de cada ponto. Encontre a distância média de pontos dentro de seu grupo para (eu) e a distância média dos pontos para seu próximo grupo mais próximo chamado b (eu).

Observação: O A (eu)o valor deve ser menor que b (eu) valor, o que é ai << com um.

Agora, nós temos os valores de um (eu) e B (eu). vamos calcular o coeficiente de silhueta usando a seguinte fórmula.

Agora, podemos calcular o coeficiente de silhueta de todos os pontos nos grupos e traçar o gráfico de silhueta. Este gráfico também será útil para detectar outliers. O enredo da silhueta está entre -1 uma 1.

Observe que para o coeficiente de silhueta igual a -1 é o pior caso.

Olhe para o gráfico e verifique qual dos valores k está mais próximo de 1.

O que mais, verifique o gráfico que tem o mínimo de outliers, o que significa um valor menos negativo. Em seguida, escolha o valor de k para o seu modelo ajustá-lo.

Vantagens do K-means

É muito fácil de implementar.
É escalonável para um grande conjunto de dados e também mais rápido para grandes conjuntos de dados.
adaptar novos exemplos com muita frequência.
Generalização de clusters para diferentes formas e tamanhos.