Engenharia de funções passo a passo

Compartilhar no Facebook
Compartilhar no Twitter
Compartilhar no LinkedIn
Compartilhar no telegrama
Compartilhar no Whatsapp

Conteúdo

Introdução

importância-do-recurso-engenharia-em-datahack-competições-6888452

Tabela de conteúdo

  1. Por que devemos usar a engenharia de funções em ciência de dados?
  2. Seleção de recursos
  3. Tratamento de valores ausentes
  4. Tratamento de dados desequilibrados
  5. Tratamento de outliers
  6. Binning
  7. Codificação
  8. Escala de função

1. Por que devemos usar a engenharia de funções em ciência de dados?

En Data Science, o desempenho do modelo depende do pré-processamento e manuseio de dados. Suponha que se construirmos um modelo sem manipulação de dados, obtemos uma precisão de cerca 70%. Aplicando a engenharia de funções no mesmo modelo, existe a possibilidade de aumentar o desempenho do 70% Para mais.

Simplesmente, ao usar a engenharia de funções, melhoramos o desempenho do modelo.

2. Seleção de recursos

A seleção de funções nada mais é do que uma seleção de funções independentes necessárias. Selecionar as características independentes importantes que estão mais relacionadas à característica dependente ajudará a construir um bom modelo.. Existem alguns métodos para selecionar funções:

2.1 Matriz de correlação com mapa de calor

O mapa de calor é uma representação gráfica de dados 2D (bidimensional). Cada valor de dados é representado em uma matriz.

Em primeiro lugar, desenhe o gráfico de pares entre todas as características independentes e características dependentes. Irá dar a relação entre as características dependentes e independentes. A relação entre a característica independente e a característica dependente é menor que 0.2, em seguida, escolha esse recurso independente para construir um modelo.

953241-8931125

2.2 Seleção univariada

Nisto, testes estatísticos podem ser usados ​​para selecionar as características independentes que têm a relação mais forte com a característica dependente. Selecione KBest O método pode ser usado com um conjunto de diferentes testes estatísticos para selecionar um número específico de características.

225322-3258208
194213-4864398
  • A característica que tem a pontuação mais alta estará mais relacionada à característica dependente e escolherá essas características para o modelo.

2.3 Método ExtraTreesClassifier

Neste método, o método ExtraTreesClassifier ajudará a dar a importância de cada característica independente com uma característica dependente. A importância da função lhe dará uma pontuação para cada função em seus dados, quanto maior a pontuação, mais importante ou relevante para a função no que diz respeito à sua variável de saída.

780774-2551883
924605-4264414

3. Tratamento de valores ausentes

Em alguns conjuntos de dados, obtivemos os valores NA nas características. Eles estão apenas faltando dados. Manipulando este tipo de dados, existem muitas maneiras:

  • Nos lugares de valores perdidos, para substituir os valores ausentes pela média ou mediana em dados numéricos e para dados categóricos pelo modo.
458796-5086083
  • Elimine os valores NA em linhas inteiras.
341087-2368081
  • Elimine os valores de NA para recursos completos. (ajuda se os valores de NA forem mais do que 50% em uma função)
963308-9197745
  • Substitua os valores NA por 0.
560829-5765615

Se você escolher descartar as opções, existe a possibilidade de perder informações importantes deles. Portanto, é melhor escolher substituir as opções.

4. Tratamento de dados desequilibrados

Por que é necessário lidar com dados desequilibrados? Devido a reduzir o problema de sobreajuste e desajuste.

suponha uma característica tem um nível de fator 2 (0 e 1). consiste em 1 isto é 5% e 0 isto é 95%. São chamados de dados não balanceados.

Exemplo:-

7333210-1974615

Para evitar este problema, existem alguns métodos:

4.1 Classe de maioria com subamostragem

Uma subamostragem da classe majoritária irá reamostrar os pontos da classe majoritária nos dados para torná-los iguais à classe minoritária.

8541811-8269732

4.2 Duplicação de classes minoritárias de sobreamostragem

A amostragem excessiva da classe minoritária irá reamostrar os pontos da classe minoritária nos dados para torná-los iguais à classe majoritária.

8171312-9391373

4.3 Superamostragem da classe da minoria usando a técnica de superamostragem sintética da minoria (SMOTE)

Neste método, amostras sintéticas são geradas para a classe minoritária e iguais à classe majoritária.

4998913-5701817

5. Tratamento de outliers

Em primeiro lugar, calcular a assimetria dos recursos e verificar se eles são tendenciosos positivamente, tendenciosa ou negativa. Outro método é plotar o gráfico de caixa nas características e verificar se algum valor está fora dos limites ou não.. se eles existem, são chamados de outliers.

7193414-3602537

como lidar com esses outliers: –

Primeiro, calcular valores de quantis em 25% e 75%.

8737115-2563705
  • a seguir, calcular o intervalo interquartil

IQR = Q3 – T1

1178816-3559397
  • A seguir, calcular os valores dos extremos superior e inferior.

extremidade inferior = Q1 – 1,5 * IQR

extremidade superior = Q3– 1,5 * IQRe

9813417-8409527
  • por último, verifique se os valores estão acima do limite superior ou abaixo do limite inferior. se é apresentado, remova ou substitua-os pela meia, a mediana ou qualquer valor de quantil.
  • Substitua outliers com média
4137018-2718517
  • Substitua outliers por valores de quantil
9596719-4220187
5643320-3385882

6. Binning

A categorização nada mais é do que qualquer valor de dados dentro do intervalo que se ajusta à categoria. É importante em sua atividade de exploração de dados. Normalmente o usamos para transformar variáveis ​​contínuas em discretas..

Suponha que se temos a função AGE continuamente e precisamos dividir a idade em grupos como uma função, então será útil.

8629321-8977454

7. Codificação:

Por que isso se aplica? porque em conjuntos de dados podemos conter tipos de dados de objetos. construir um modelo, precisamos que todos os recursos sejam em tipos de dados inteiros. portanto, Label Encoder e OneHotEncoder são usados ​​para converter o tipo de dados do objeto em um tipo de dados inteiro.

9572922-7746688

Antes de aplicar a codificação da tag

4483023-6484144
1144524-9472054

Depois de aplicar a codificação da tag, aplique o método de transformador de coluna para converter rótulos em 0 e 1

5214325-1367715

Al aplicar get_dummies, nós convertemos diretamente categórico em numérico

1468326-3386882

8. Escala de função

Por que essa escala é aplicada? porque para reduzir o efeito de variância e superar o problema de ajuste. existem dois tipos de métodos de escalonamento:

8.1 estandardização

Quando este método é usado ?. quando todas as características têm valores altos, não 0 e 1.

É uma técnica para padronizar as características independentes que ocorrem em um intervalo fixo para trazer todos os valores para as mesmas magnitudes..

5627627-7112131

Em padronização, a média das características independentes é 0 e o desvio padrão é 1.

Método 1:

1517028-4794777
1602029-9839686

Método 2:

6623530-8889788

Após a codificação, rótulos de recursos estão ativados 0 e 1. Isso pode afetar a padronização. Para superar isso, nós usamos padronização.

8.2 Normalização

A normalização também torna o processo de treinamento menos sensível devido à escala das características.. Isso resulta na obtenção de melhores coeficientes após o treinamento..

9710531-6241503

Método 1: -MinMaxScaler

É um método de redimensionar a característica para uma faixa rápida e estrita de [0,1] subtraindo o valor mínimo da característica e depois dividindo pelo intervalo.

4247132-3737407
6890033-7357998

Método 2: – Normalização média

É um método de redimensionar a característica para uma faixa rápida e estrita de [-1,1] com média = 0.

2341734-1886395
43212screenshot2039-8683522
7337735-2828581

Notas finais: –

Neste artigo, Abordei o processo de engenharia de funções passo a passo. Isso é mais útil para aumentar a precisão da previsão..

Observe que não existem métodos específicos para aumentar a precisão de sua previsão. Tudo depende dos seus dados e aplica vários métodos.

Como próximo passo, Eu encorajo você a experimentar diferentes conjuntos de dados e analisá-los. E não se esqueça de compartilhar suas idéias na seção de comentários abaixo!!

Sobre o autor:

Soy Pavan Kumar Reddy Elluru. Concluí minha graduação na Faculdade de Engenharia G.Pullareddy no ano 2020. Eu sou um cientista de dados certificado no ano 2021 e sou apaixonado por aprendizado de máquina e projetos de aprendizado profundo.

Por favor, escreva-me em caso de qualquer dúvida ou apenas para dizer olá.

Identificação de e-mail:- [e-mail protegido]

Identificação do Linkedin:www.linkedin.com/in/elluru-pavan-kumar-reddy-a1b183197

ID de Github: – pawankumarreddy1999 (Pavan Kumar Reddy Elluru) (github.com)

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.