Limpeza de dados | O que é limpeza de dados?

Conteúdo

Introdução

O que é limpeza de dados? Removendo registros nulos, removendo colunas desnecessárias, o tratamento de valores ausentes, retificação de valores indesejados ou outliers, reestruturando os dados para editá-los em um formato mais legível, etc., é conhecido como limpeza de dados.

19025pic6-5033516

Um dos exemplos mais comuns de limpeza de dados é sua aplicação em data warehouses. Um data warehouse armazena uma variedade de dados de várias fontes e os otimiza para análise antes que qualquer ajuste de modelo possa ser realizado.

A limpeza de dados não é apenas remover informações existentes para adicionar novas informações, mas encontre uma maneira de maximizar a precisão de um conjunto de dados sem necessariamente fornecer as informações existentes. Diferentes tipos de dados exigirão diferentes tipos de limpeza, mas lembre-se sempre de que a abordagem certa é o fator decisivo.

Depois de limpar os dados, se tornará consistente com outros conjuntos de dados semelhantes no sistema.. Vamos ver as etapas para limpar os dados;

Limpar registros nulos / duplicatas

Se uma determinada linha estiver faltando uma quantidade significativa de dados, então seria melhor deletar essa linha, uma vez que não agregaria nenhum valor ao nosso modelo. pode imputar o valor; fornecer um substituto apropriado para os dados ausentes. Lembre-se também de sempre apagar valores duplicados / redundante do seu conjunto de dados, uma vez que podem resultar em um viés em seu modelo.

Como um exemplo, considere o conjunto de dados do aluno com os seguintes registros.

Nome pontuação Endereço altura peso
UMA 56 Vamos para 165 56
B 45 Bombay 3 sessenta e cinco
C 87 Délhi 170 58
D
mim 99 Mysore 167 60

Como vemos que corresponde ao nome do aluno “D”, a maioria dos dados está faltando, por isso, nós descartamos aquela linha particular.

student_df.dropna() # derruba linhas com 1 ou mais valor Nan

#Produção

Nome pontuação Endereço altura peso
UMA 56 Vamos para 165 56
B 45 Bombay 3 sessenta e cinco
C 87 Délhi 170 58
mim 99 Mysore 167 60

Exclua colunas desnecessárias

Quando recebemos dados de partes interessadas, em geral é enorme. Pode haver um registro de dados que pode não agregar nenhum valor ao nosso modelo. É melhor excluir esses dados, uma vez que faria isso com recursos valiosos, como memória e tempo de processamento.

Como um exemplo, observar o desempenho dos alunos em um teste, o peso ou altura dos alunos não tem nada a contribuir para o modelo.

student_df.drop(['altura','peso'], eixo = 1, local = Verdadeiro) #Coluna de queda de altura do dataframe

#Produção

Nome pontuação Endereço
UMA 56 Vamos para
B 45 Bombay
C 87 Délhi
mim 99 Mysore

Renomear colunas

É sempre melhor renomear as colunas e formatá-las para o formato mais legível que o cientista de dados e a empresa possam entender.. Como um exemplo, no conjunto de dados do aluno, renomear coluna “Nome” O que “Sudent_Name” faz sentido.

student_df.rename(colunas ={'nome': 'Nome do aluno'}, inplace = True) #renomeia a coluna de nome para Student_Name

#Produção

Nome do aluno pontuação Endereço
UMA 56 Vamos para
B 45 Bombay
C 87 Délhi
mim 99 Mysore

Lidar com valores ausentes

Existem muitas alternativas para cuidar de valores ausentes em um conjunto de dados. Cabe ao cientista de dados e ao conjunto de dados em mãos selecionar o método mais apropriado. Os métodos mais utilizados são a imputação do conjunto de dados com média, mediana o moda. Excluir esses registros particulares com um ou mais valores ausentes e, em alguns casos, criar algoritmos de aprendizado de máquina como regressão linear e vizinho mais próximo K também é usado para lidar com valores ausentes.

Nome do aluno pontuação Endereço
UMA 56 Vamos para
B 45 Bombay
C Délhi
mim 99 Mysore
Student_df['col_name'].Fillna((Student_df['col_name'].quer dizer()), inplace = True) # Os valores Na em nome_col são substituídos pela média

#Produção

Nome do aluno pontuação Endereço
UMA 96 Vamos para
B 45 Bombay
C 66 Délhi
mim 99 Mysore

Detecção de valores atípicos

Outliers podem ser considerados como ruído no conjunto de dados. Pode haver vários motivos para outliers, como erro de entrada de dados, manual de erro, erro experimental, etc.

Como um exemplo, no exemplo a seguir, pontuação do aluno “B” entre 130, o que é claramente incorreto.

Nome do aluno pontuação Endereço altura peso
UMA 56 Vamos para 165 56
B 45 Bombay 3 sessenta e cinco
C 66 Délhi 170 58
mim 99 Mysore 167 60

Plotar a altura em um gráfico de caixa dá o seguinte resultado

18216pic5-6646427

Nem todos os valores extremos são outliers, alguns também podem levar a descobertas interessantes, mas isso é um assunto para outro dia. Testes como o teste de pontuação Z podem ser usados, o box plot ou simplesmente plotar os dados no gráfico irá revelar os outliers.

Reforma / reestruturar os dados

A maioria dos dados de negócios fornecidos ao cientista de dados não está no formato mais legível. É nosso trabalho reformular os dados e colocá-los em um formato que possa ser usado para análise.. Como um exemplo, criando uma nova variável a partir de variáveis ​​existentes ou combinando 2 ou mais variáveis.

Notas de rodapé

Certamente, há muitos benefícios em trabalhar com dados limpos, poucos deles são a precisão aprimorada dos modelos, melhor tomada de decisão pelas partes interessadas, a facilidade de implementação do modelo e ajuste de parâmetros, economizando tempo e recursos, e muito mais. Lembre-se sempre de limpar os dados como a primeira e mais importante etapa antes de ajustar qualquer modelo.

Referências

https://realpython.com/

https://www.geeksforgeeks.org/

A mídia mostrada nesta postagem não é propriedade da DataPeaker e é usada a critério do autor.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.