Agrupando em R | Guia do iniciante para agrupamento em R

Conteúdo

vista-visão-do-recém-descoberto-globular-cluster-vvv-cl001-an

R Estás pronto? Vamos aprender a agrupar em R.

http: // www.pags: //www.rstudio.com/products/rstudio/download/

Visualização de dados usando R

Nos tempos atuais, as imagens falam mais alto que os números ou a análise de palavras. sim, gráficos e diagramas são mais atraentes e fáceis de identificar para o olho humano. É aqui que entra a importância da análise de dados R.. Os clientes entendem melhor a representação gráfica de seu crescimento / avaliação / Distribuição de produtos. Portanto, a ciência de dados está crescendo hoje em dia e R é uma daquelas linguagens que oferece flexibilidade em plotagem e gráficos, pois tem funções e pacotes específicos para tais tarefas. RStudio é um software onde dados e visualização acontecem lado a lado, o que o torna muito favorável para um analista de dados. Diagramas de dispersão, plotagens de caixa, gráficos de barras, gráficos de linha, gráficos de linha, mapas de calor, etc. são possíveis em R com apenas uma função simples, por exemplo: o histograma pode ser traçado usando a função hist (nome dos dados) com parametros Como xlab (x tag), cor, deve, etc.

Aproveitando esta conveniência, Vamos passar para um método de Aprendizado não supervisionado: agrupamento.

Aprendizagem supervisionada e não supervisionada

Existem dois tipos de aprendizagem na análise de dados: aprendizagem supervisionada e não supervisionado.

Aprendizagem supervisionada – Os dados marcados são uma entrada para a máquina de aprendizagem. Regressão, a classificação, Árvores de decisão, etc. são métodos de aprendizagem supervisionados.

Exemplo de aprendizagem supervisionada:

A regressão linear é onde há apenas um variável dependente. Equação: y = mx + c, y depende de x.

Por exemplo: a idade e o perímetro de uma árvore são os 2 rótulos como conjunto de dados de entrada, a máquina precisa prever a idade de uma árvore com uma circunferência como entrada após conhecer o conjunto de dados que foi alimentado. A idade depende da circunferência.

Por tanto, a aprendizagem é monitorada com base em tags.

Aprendizagem não supervisionada – Os dados não rotulados são enviados para a máquina para encontrar um padrão por conta própria. Clustering é um método de aprendizagem não supervisionado que possui modelos: KMeans, agrupamento hierárquico, DBSCAN, etc.

A representação visual dos clusters mostra os dados em um formato de fácil compreensão, pois agrupa elementos de um grande conjunto de dados de acordo com suas semelhanças. Isso torna a análise mais fácil. Porém, a aprendizagem não supervisionada nem sempre é precisa e é um processo complexo para a máquina, uma vez que os dados não são rotulados.

Vamos agora continuar com um exemplo de agrupamento usando o conjunto de dados de flores da íris.

Agrupamento

Clusters eles são um grupo dos mesmos elementos ou elementos, como um cacho de estrelas ou um cacho de uvas ou um cacho de redes e assim por diante …

Usando clustering no mundo real:

É usado em sites de comércio eletrônico para formar grupos de clientes com base em seus perfis, como idade, sexo, gastando, regularidade, etc. É útil em marketing e vendas, pois ajuda a agrupar o público-alvo do produto. A filtragem de spam em e-mails e muitos outros são aplicativos de cluster do mundo real.

Clustering em R refere-se à assimilação do mesmo tipo de dados em grupos ou clusters para distinguir um grupo dos outros. (coleta do mesmo tipo de dados). Isso pode ser representado em formato gráfico por meio de R. Usamos o modelo KMeans neste processo.

O que é o algoritmo K Means?

K Means é um algoritmo de agrupamento que atribui repetidamente um grupo entre os k grupos presentes a um ponto de dados de acordo com as características do ponto. É um método de agrupamento baseado em centróides.

O número de clusters é decidido, centros de cluster são selecionados aleatoriamente mais distantes uns dos outros, a distância entre cada ponto de dados e o centro é calculada usando a distância euclidiana, o ponto de dados é atribuído ao cluster cujo centro está mais próximo desse ponto. Este processo é repetido até que o centro dos grupos não mude e os pontos de dados permaneçam no mesmo grupo..

Isso tudo é teoria, mas na prática, R tem um pacote de empacotamento que calcula as etapas acima.

Paso 1

Vou trabalhar no conjunto de dados Iris, que é um conjunto de dados embutido em R usando o pacote Cluster. Tenho 5 colunas, a saber: comprimento sépala, largura sépala, comprimento da pétala, largura da pétala e espécie. Iris é uma flor e aqui neste conjunto de dados ela é mencionada 3 de sua espécie Setosa, Versicolor, Verginica. Vamos agrupar as flores de acordo com suas espécies. O código para carregar o conjunto de dados:

dados("íris")
cabeça(íris) #vai mostrar o topo 6 linhas apenas
63849rstudio2026-04-20212022_31_04-4835929

Paso 2

A próxima etapa é separar as colunas 3 e 4 em um objeto x separado, uma vez que estamos usando o método de aprendizagem não supervisionado. Estamos removendo rótulos para que a máquina use a enorme entrada de colunas de comprimento e largura de pétalas para agrupamento autônomo.

x = íris[,3:4] #usando apenas colunas de comprimento e largura de pétalas
cabeça(x)
39142rstudio2026-04-20212022_45_08-2883809

Paso 3

O próximo passo é usar o algoritmo K Means. K Means é o método que usamos que tem parâmetros (dados, não. De clusters o grupos). Aqui nossos dados são o objeto x e teremos k = 3 grupos, como não 3 espécies no conjunto de dados.

Então o ‘pacote de cluster se chama. O agrupamento em R é feito usando este pacote embutido que fará toda a matemática. A função Clusplot cria um gráfico 2D dos clusters.

model = kmeans(x,3)
 biblioteca(cacho)
clusplot(x,modelo $ cluster)
67391rstudio2026-04-20212022_58_36-4910374

O componente 1 e o componente 2 visto no gráfico são os dois componentes do PCA (análise do componente principal), que é basicamente um método de extração de recursos que usa os componentes importantes e remove o resto. Reduz a dimensionalidade dos dados para facilitar a aplicação de KMeans. Tudo isso é feito pelo cacho um R.

Esses dois componentes explicam a variabilidade do 100% na saída, o que significa que o objeto de dados x fornecido ao PCA foi preciso o suficiente para formar grupos claros usando KMeans e há uma sobreposição mínima (insignificante) entre eles.

Paso 4

O próximo passo é atribuir cores diferentes aos grupos e sombrear, portanto, usamos os parâmetros de cor e sombra configurando-os para T, o que significa verdade.

clusplot(x,modelo $ cluster,color = T,sombra = T)
42154rstudio2026-04-20212023_04_33-9451716

conclusão

Tudo isso resume o básico do agrupamento em R. Aqui eu uso um conjunto de dados integrado, mas conjuntos de dados importados também podem ser usados ​​para clustering. Por exemplo: agrupar usuários de um site com base em itens favoritos, etc. É muito útil para fazer comparações de negócios.

Importar conjuntos de dados para R:

conjunto de dados <- read.csv("path.csv") 
Visualizar(conjunto de dados)
anexar(conjunto de dados)

Obrigado por dedicar seu tempo e ler este artigo.,Sinta-se à vontade para comentar o que pode ser melhorado, já que aprender é um processo diário.depois detodo o mundo..

LigarcommimsobreLinkedIn:https://www.linkedin.com/in/akansha-bose-149b14164/

A mídia mostrada neste artigo não é propriedade da DataPeaker e é usada a critério do autor.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.