Introdução à mineração de dados | Aplicativos de mineração de dados

Conteúdo

Este artigo foi publicado como parte do Data Science Blogathon

Visão geral

  1. Aprenda o conceito básico de mineração de dados
  2. Compreenda as aplicações da mineração de dados

Pré-requisitos

  • Conhecimento básico de Python
  • Conhecimento básico de DataBase

Bem-vindos, caras!

Aqui, vou dar-lhe uma breve compreensão dos fundamentos da mineração de dados. Sabemos que en todas partes hay datos en varios formatos que se almacenarán en una base de dados. De acordo com a escala de dados, podemos escolher um banco de dados adequado. Então, existem bancos de dados populares que conhecemos, como PostgreSQL, NoSQL, MongoDB, Microsoft SQL Server e muitos mais.

Neste artigo, você terá uma ideia de mineração de dados.

Então vamos continuar …

O que é mineração de dados?

“Processamento de dados”, que extrai os dados. Em palavras simples, se define como encontrar insights ocultos (em formação) do banco de dados, extrair padrões de dados.

Existem diferentes algoritmos para diferentes tarefas. A função desses algoritmos é ajustar o modelo. Esses algoritmos identificam as características dos dados. Existem 2 tipos de modelos.

1) Modelo preditivo

2) Modelo descritivo

94681data-mining-tasks-and-models-entre-modelos-preditivos-classificação-é-provavelmente-o-melhor-2805991

Tarefas básicas de mineração de dados

Nesta secção, veremos algumas das funções / tarefas de mineração.

1) Classificação

Este término viene bajo aprendizagem supervisionada. Os algoritmos de classificação requerem que as classes sejam definidas com base em variáveis. As características dos dados definem a qual classe eles pertencem. O reconhecimento de padrões é um dos tipos de problemas de classificação em que a entrada (Padrão) é classificado em diferentes classes com base em sua similaridade de classe definida.

2) Predição

Na vida real, Muitas vezes vemos coisas que predizem / valores futuros / ou de outra forma com base em dados anteriores e presentes. A previsão também é um tipo de tarefa de classificação. De acordo com o tipo de aplicação, por exemplo, prever inundações onde as variáveis ​​dependentes são o nível de água do rio, sua umidade, escala de chuva, etc. são os atributos.

3) Regressão

43720lr-1000361

A regressão é uma técnica estatística usada para determinar a relação entre as variáveis (x) e as variáveis ​​dependentes (e). Existem alguns tipos de regressão, como Linear, Logística, etc. A regressão linear é usada em valores contínuos (0,1,1,5,… .e assim por diante) e a Regressão Logística é utilizada quando existe a possibilidade de apenas dois eventos à medida que ocorrem / fracasso, verdade / falso, sim / não, etc.

4) Análise de série temporal

72294time20seriers20graph2-3364143

Na análise de séries temporais, uma variável cambia su valor según el tiempo. Isso significa que a análise passa por padrões de identificação de dados ao longo de um período de tempo. Pode ser variação sazonal, variação irregular, tendência secular e flutuação cíclica. Por exemplo, chuva anual, preço da bolsa, etc.

5) Agrupamento

71113data_after_clustering-3988446

O agrupamento é igual à classificação, quer dizer, agrupar os dados. O clustering está incluído no aprendizado de máquina não supervisionado. É um processo de divisão dos dados em grupos com base em tipos de dados semelhantes.

6) Resumo

O resumo nada mais é do que caracterização ou generalização. Recupere informações significativas de dados. Ele também oferece um resumo das variáveis ​​numéricas como média, moda, mediana, etc.

7) Regras de associação

É a principal tarefa de Data Mining. Ajuda a encontrar padrões apropriados e conhecimento significativo do banco de dados. A regra de associação é um modelo que extrai tipos de associações de dados. Por exemplo, Análise de cesta de compras onde as regras de associação são aplicadas ao banco de dados para saber quais itens o cliente compra junto.

42241mba-2815271

8) Descoberta de sequência

Também chamada de análise sequencial. É usado para descobrir ou encontrar o padrão sequencial nos dados.

Padrão sequencial significa o padrão que é puramente baseado em uma sequência de tempo. Esses padrões são semelhantes às regras de associação encontradas no banco de dados ou os eventos estão relacionados, mas seu relacionamento é baseado apenas em "Tempo".

Até aqui, vimos todas as funções ou tarefas básicas de mineração de dados. Vamos prosseguir para descobrir mais sobre mineração de dados …

Mineração de dados VS KDD (descoberta de conhecimento no banco de dados)

Processamento de dados: Processo de uso de algoritmos para extrair informações significativas e padrões derivados do processo KDD. É uma etapa envolvida no KDD.

KDD: É um processo significativo de identificação de padrões e informações significativas nos dados. A entrada fornecida para este processo são os dados e a saída fornece informações úteis dos dados.

O processo KDD consiste em 5 Passos:

1) Seleção: Necessidade de obter dados de várias fontes de dados, bases de dados.

2) Pré-processando: Este processo de limpeza de dados em termos de dados ruins, valores ausentes, dados errados.

3) Transformação: Os dados de várias fontes devem ser convertidos e codificados em algum formato para pré-processamento.

4) Mineração de dados: Nesse processo, algoritmos são aplicados aos dados transformados para alcançar a saída ou resultados desejados.

5) Interpretação / avaliação: Você tem que fazer algumas visualizações para apresentar resultados de mineração de dados que são muito importantes.

24712kdd-2957240

Aplicativos de mineração de dados

1) Comércio eletrônico

O comércio eletrônico é uma de suas aplicações na vida real. Empresas de comércio eletrônico são como a Amazon, Flipkart, Myntra, etc. Eles usam técnicas de mineração de dados para ver a funcionalidade de cada produto de forma que "qual produto é mais visto pelo cliente e também o que o outro gostou".

2) retalho

É outro aplicativo de mineração de dados do mercado de varejo. Os varejistas encontram o padrão de “frescor, frequência, monetário (em termos de moeda)”. Varejistas rastreiam vendas e transações de produtos.

3) Educação

A educação é um campo emergente e popular hoje. É sobre a descoberta de conhecimento a partir de dados educacionais. O principal objetivo desta aplicação é estudar ou identificar o padrão de comportamento do aluno em termos de aprendizagem futura, efeitos de estudo, conhecimento de aprendizagem avançado, etc. Essas técnicas de mineração de dados são usadas por instituições para tomar decisões precisas e também prever resultados adequados..

Ferramentas de mineração de dados

– KNIME

-WEKA

-LARANJA

Algoritmos de mineração de dados

  • Agrupamento de meias K
  • Máquinas de vetor de suporte
  • A priori
  • KNN
  • Bayes ingenuo
  • CART e muitos mais …

Estes são alguns algoritmos.

* Agora vou fornecer informações sobre as bibliotecas necessárias abaixo.

– A priori:

de apyori import apriori

– Agrupamento de meias K:

from kneed import KneeLocator
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from sklearn.preprocessing import StandardScaler

– Máquinas de vetor de suporte:

de sklearn import svm

-Baías ingénuas:

de sklearn.naive_bayes import GaussianNB

-CARRO:

de sklearn.tree import DecisionTreeRegressor

-KNN:

from sklearn.neighbors import KNeighborsClassifier

Então, aqui estão algumas bibliotecas que precisam ser instaladas enquanto o algoritmo está executando.

conclusão

Espero que tenha gostado do meu artigo. Se você tiver alguma dúvida, você pode deixar comentários abaixo. Obrigado!

A mídia mostrada neste artigo não é propriedade da DataPeaker e é usada a critério do autor.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.