Introducción
¿Qué es la limpieza de datos? La eliminación de registros nulos, la eliminación de columnas innecesarias, el tratamiento de valores perdidos, la rectificación de valores no deseados o valores atípicos, la reestructuración de los datos para editarlos a un formato más legible, etc., se conoce como limpieza de datos.
Uno de los ejemplos de limpieza de datos más comunes es su aplicación en almacenes de datos. Un almacén de datos almacena una gama de datos de numerosas fuentes y los optimiza para su análisis antes de que se pueda llevar a cabo cualquier ajuste de modelo.
La limpieza de datos no es solo eliminar la información existente para agregar la nueva información, sino hallar una manera de maximizar la precisión de un conjunto de datos sin renunciar necesariamente la información existente. Los diferentes tipos de datos requerirán diferentes tipos de limpieza, pero recuerde siempre que el enfoque correcto es el factor decisivo.
Después de limpiar los datos, se volverá consistente con otros conjuntos de datos similares en el sistema.. Veamos los pasos para limpiar los datos;
Borrar registros nulos / duplicados
Si en una fila en particular falta una cantidad significativa de datos, entonces sería mejor borrar esa fila, puesto que no agregaría ningún valor a nuestro modelo. puede imputar el valor; proporcionar un sustituto apropiado para los datos faltantes. Además recuerde siempre borrar los valores duplicados / redundantes de su conjunto de datos, puesto que podrían resultar en un sesgo en su modelo.
A modo de ejemplo, consideremos el conjunto de datos del estudiante con los siguientes registros.
nombre | puntaje | Dirección | altura | peso |
A | 56 | Ir a | 165 | 56 |
B | 45 | Bombay | 3 | sesenta y cinco |
C | 87 | Delhi | 170 | 58 |
D | ||||
mi | 99 | Mysore | 167 | 60 |
Como vemos que corresponde al nombre del estudiante «D», falta la mayoría de los datos, por eso, descartamos esa fila en particular.
student_df.dropna() # drops rows with 1 or more Nan value
#producción
nombre | puntaje | Dirección | altura | peso |
A | 56 | Ir a | 165 | 56 |
B | 45 | Bombay | 3 | sesenta y cinco |
C | 87 | Delhi | 170 | 58 |
mi | 99 | Mysore | 167 | 60 |
Borrar columnas innecesarias
Cuando recibimos los datos de las partes interesadas, de forma general es enorme. Puede haber un registro de datos que podría no agregar ningún valor a nuestro modelo. Es mejor borrar estos datos, puesto que lo haría con recursos valiosos como la memoria y el tiempo de procesamiento.
A modo de ejemplo, al observar el desempeño de los estudiantes en una prueba, el peso o la altura de los estudiantes no disponen nada que aportar al modelo.
student_df.drop(['height','weight'], axis = 1,inplace=True) #Drops Height column form the dataframe
#Producción
nombre | puntaje | Dirección |
A | 56 | Ir a |
B | 45 | Bombay |
C | 87 | Delhi |
mi | 99 | Mysore |
Cambiar el nombre de las columnas
Siempre es mejor cambiar el nombre de las columnas y formatearlas al formato más legible que puedan comprender tanto el científico de datos como la compañía. A modo de ejemplo, en el conjunto de datos de los estudiantes, cambiar el nombre de la columna «nombre» como «Sudent_Name» hace que tenga sentido.
student_df.rename(columns={'name': 'Student_Name'}, inplace=True) #renames name column to Student_Name
#Producción
Nombre del estudiante | puntaje | Dirección |
A | 56 | Ir a |
B | 45 | Bombay |
C | 87 | Delhi |
mi | 99 | Mysore |
Tratar los valores perdidos
Hay muchas alternativas para cuidar los valores perdidos en un conjunto de datos. Depende del científico de datos y del conjunto de datos en mano seleccionar el método más apropiado. Los métodos más utilizados son la imputación del conjunto de datos con media, mediana o moda. La eliminación de esos registros particulares con uno o más valores faltantes y, en algunos casos, la creación de algoritmos de aprendizaje automático como la regresión lineal y K vecino más cercano además se utiliza para tratar los valores faltantes.
Nombre del estudiante | puntaje | Dirección |
A | 56 | Ir a |
B | 45 | Bombay |
C | Delhi | |
mi | 99 | Mysore |
Student_df['col_name'].fillna((Student_df['col_name'].mean()), inplace=True) # Na values in col_name is replaced with mean
#Producción
Nombre del estudiante | puntaje | Dirección |
A | 96 | Ir a |
B | 45 | Bombay |
C | 66 | Delhi |
mi | 99 | Mysore |
Detección de valores atípicos
Los valores atípicos se pueden considerar como ruido en el conjunto de datos. Puede haber varios motivos para los valores atípicos, como error de entrada de datos, error manual, error experimental, etc.
A modo de ejemplo, en el siguiente ejemplo, el puntaje del estudiante «B» se ingresa 130, lo cual claramente no es correcto.
Nombre del estudiante | puntaje | Dirección | altura | peso |
A | 56 | Ir a | 165 | 56 |
B | 45 | Bombay | 3 | sesenta y cinco |
C | 66 | Delhi | 170 | 58 |
mi | 99 | Mysore | 167 | 60 |
Trazar la altura en un diagrama de caja da el siguiente resultado
No todos los valores extremos son valores atípicos, algunos además pueden conducir a descubrimientos interesantes, pero ese es un tema para otro día. Se pueden utilizar pruebas como la prueba de puntuación Z, el diagrama de caja o simplemente trazar los datos en el gráfico revelará los valores atípicos.
Reformar / reestructurar los datos
La mayoría de los datos comerciales proporcionados al científico de datos no están en el formato más legible. Es nuestro trabajo remodelar los datos y llevarlos al formato que se pueda usar para el análisis. A modo de ejemplo, creando una nueva variable a partir de las variables existentes o combinando 2 o más variables.
Notas al pie
Ciertamente, existen numerosas ventajas de trabajar con datos limpios, pocas de las cuales son la precisión mejorada de los modelos, una mejor toma de decisiones por parte de las partes interesadas, la facilidad de implementación del modelo y el ajuste de parámetros, ahorro de tiempo y recursos, y muchas más. Recuerde siempre limpiar los datos como el primer y más importante paso antes de ajustar cualquier modelo.
Referencias
https://www.geeksforgeeks.org/
Los medios que se muestran en este post no son propiedad de DataPeaker y se usan a discreción del autor.