Introdução
O que é limpeza de dados? Removendo registros nulos, removendo colunas desnecessárias, o tratamento de valores ausentes, retificação de valores indesejados ou outliers, reestruturando os dados para editá-los em um formato mais legível, etc., é conhecido como limpeza de dados.
Um dos exemplos mais comuns de limpeza de dados é sua aplicação em data warehouses. Um data warehouse armazena uma variedade de dados de várias fontes e os otimiza para análise antes que qualquer ajuste de modelo possa ser realizado.
A limpeza de dados não é apenas remover informações existentes para adicionar novas informações, mas encontre uma maneira de maximizar a precisão de um conjunto de dados sem necessariamente fornecer as informações existentes. Diferentes tipos de dados exigirão diferentes tipos de limpeza, mas lembre-se sempre de que a abordagem certa é o fator decisivo.
Depois de limpar os dados, se tornará consistente com outros conjuntos de dados semelhantes no sistema.. Vamos ver as etapas para limpar os dados;
Limpar registros nulos / duplicatas
Se uma determinada linha estiver faltando uma quantidade significativa de dados, então seria melhor deletar essa linha, uma vez que não agregaria nenhum valor ao nosso modelo. pode imputar o valor; fornecer um substituto apropriado para os dados ausentes. Lembre-se também de sempre apagar valores duplicados / redundante do seu conjunto de dados, uma vez que podem resultar em um viés em seu modelo.
Como um exemplo, considere o conjunto de dados do aluno com os seguintes registros.
Nome | pontuação | Endereço | altura | peso |
UMA | 56 | Vamos para | 165 | 56 |
B | 45 | Bombay | 3 | sessenta e cinco |
C | 87 | Délhi | 170 | 58 |
D | ||||
mim | 99 | Mysore | 167 | 60 |
Como vemos que corresponde ao nome do aluno “D”, a maioria dos dados está faltando, por isso, nós descartamos aquela linha particular.
student_df.dropna() # derruba linhas com 1 ou mais valor Nan
#Produção
Nome | pontuação | Endereço | altura | peso |
UMA | 56 | Vamos para | 165 | 56 |
B | 45 | Bombay | 3 | sessenta e cinco |
C | 87 | Délhi | 170 | 58 |
mim | 99 | Mysore | 167 | 60 |
Exclua colunas desnecessárias
Quando recebemos dados de partes interessadas, em geral é enorme. Pode haver um registro de dados que pode não agregar nenhum valor ao nosso modelo. É melhor excluir esses dados, uma vez que faria isso com recursos valiosos, como memória e tempo de processamento.
Como um exemplo, observar o desempenho dos alunos em um teste, o peso ou altura dos alunos não tem nada a contribuir para o modelo.
student_df.drop(['altura','peso'], eixo = 1, local = Verdadeiro) #Coluna de queda de altura do dataframe
#Produção
Nome | pontuação | Endereço |
UMA | 56 | Vamos para |
B | 45 | Bombay |
C | 87 | Délhi |
mim | 99 | Mysore |
Renomear colunas
É sempre melhor renomear as colunas e formatá-las para o formato mais legível que o cientista de dados e a empresa possam entender.. Como um exemplo, no conjunto de dados do aluno, renomear coluna “Nome” O que “Sudent_Name” faz sentido.
student_df.rename(colunas ={'nome': 'Nome do aluno'}, inplace = True) #renomeia a coluna de nome para Student_Name
#Produção
Nome do aluno | pontuação | Endereço |
UMA | 56 | Vamos para |
B | 45 | Bombay |
C | 87 | Délhi |
mim | 99 | Mysore |
Lidar com valores ausentes
Existem muitas alternativas para cuidar de valores ausentes em um conjunto de dados. Cabe ao cientista de dados e ao conjunto de dados em mãos selecionar o método mais apropriado. Os métodos mais utilizados são a imputação do conjunto de dados com média, mediana o moda. Excluir esses registros particulares com um ou mais valores ausentes e, em alguns casos, criar algoritmos de aprendizado de máquina como regressão linear e vizinho mais próximo K também é usado para lidar com valores ausentes.
Nome do aluno | pontuação | Endereço |
UMA | 56 | Vamos para |
B | 45 | Bombay |
C | Délhi | |
mim | 99 | Mysore |
Student_df['col_name'].Fillna((Student_df['col_name'].quer dizer()), inplace = True) # Os valores Na em nome_col são substituídos pela média
#Produção
Nome do aluno | pontuação | Endereço |
UMA | 96 | Vamos para |
B | 45 | Bombay |
C | 66 | Délhi |
mim | 99 | Mysore |
Detecção de valores atípicos
Outliers podem ser considerados como ruído no conjunto de dados. Pode haver vários motivos para outliers, como erro de entrada de dados, manual de erro, erro experimental, etc.
Como um exemplo, no exemplo a seguir, pontuação do aluno “B” entre 130, o que é claramente incorreto.
Nome do aluno | pontuação | Endereço | altura | peso |
UMA | 56 | Vamos para | 165 | 56 |
B | 45 | Bombay | 3 | sessenta e cinco |
C | 66 | Délhi | 170 | 58 |
mim | 99 | Mysore | 167 | 60 |
Plotar a altura em um gráfico de caixa dá o seguinte resultado
Nem todos os valores extremos são outliers, alguns também podem levar a descobertas interessantes, mas isso é um assunto para outro dia. Testes como o teste de pontuação Z podem ser usados, o box plot ou simplesmente plotar os dados no gráfico irá revelar os outliers.
Reforma / reestruturar os dados
A maioria dos dados de negócios fornecidos ao cientista de dados não está no formato mais legível. É nosso trabalho reformular os dados e colocá-los em um formato que possa ser usado para análise.. Como um exemplo, criando uma nova variável a partir de variáveis existentes ou combinando 2 ou mais variáveis.
Notas de rodapé
Certamente, há muitos benefícios em trabalhar com dados limpos, poucos deles são a precisão aprimorada dos modelos, melhor tomada de decisão pelas partes interessadas, a facilidade de implementação do modelo e ajuste de parâmetros, economizando tempo e recursos, e muito mais. Lembre-se sempre de limpar os dados como a primeira e mais importante etapa antes de ajustar qualquer modelo.
Referências
https://www.geeksforgeeks.org/
A mídia mostrada nesta postagem não é propriedade da DataPeaker e é usada a critério do autor.