Limpieza de datos | ¿Qué es la limpieza de datos?

Contenidos

Introducción

¿Qué es la limpieza de datos? La eliminación de registros nulos, la eliminación de columnas innecesarias, el tratamiento de valores perdidos, la rectificación de valores no deseados o valores atípicos, la reestructuración de los datos para editarlos a un formato más legible, etc., se conoce como limpieza de datos.

19025pic6-5033516

Uno de los ejemplos de limpieza de datos más comunes es su aplicación en almacenes de datos. Un almacén de datos almacena una gama de datos de numerosas fuentes y los optimiza para su análisis antes de que se pueda llevar a cabo cualquier ajuste de modelo.

La limpieza de datos no es solo eliminar la información existente para agregar la nueva información, sino hallar una manera de maximizar la precisión de un conjunto de datos sin renunciar necesariamente la información existente. Los diferentes tipos de datos requerirán diferentes tipos de limpieza, pero recuerde siempre que el enfoque correcto es el factor decisivo.

Después de limpiar los datos, se volverá consistente con otros conjuntos de datos similares en el sistema.. Veamos los pasos para limpiar los datos;

Borrar registros nulos / duplicados

Si en una fila en particular falta una cantidad significativa de datos, entonces sería mejor borrar esa fila, puesto que no agregaría ningún valor a nuestro modelo. puede imputar el valor; proporcionar un sustituto apropiado para los datos faltantes. Además recuerde siempre borrar los valores duplicados / redundantes de su conjunto de datos, puesto que podrían resultar en un sesgo en su modelo.

A modo de ejemplo, consideremos el conjunto de datos del estudiante con los siguientes registros.

nombrepuntajeDirecciónalturapeso
A56Ir a16556
B45Bombay3sesenta y cinco
C87Delhi17058
D
mi99Mysore16760

Como vemos que corresponde al nombre del estudiante «D», falta la mayoría de los datos, por eso, descartamos esa fila en particular.

student_df.dropna() # drops rows with 1 or more Nan value

#producción

nombrepuntajeDirecciónalturapeso
A56Ir a16556
B45Bombay3sesenta y cinco
C87Delhi17058
mi99Mysore16760

Borrar columnas innecesarias

Cuando recibimos los datos de las partes interesadas, de forma general es enorme. Puede haber un registro de datos que podría no agregar ningún valor a nuestro modelo. Es mejor borrar estos datos, puesto que lo haría con recursos valiosos como la memoria y el tiempo de procesamiento.

A modo de ejemplo, al observar el desempeño de los estudiantes en una prueba, el peso o la altura de los estudiantes no disponen nada que aportar al modelo.

student_df.drop(['height','weight'], axis = 1,inplace=True) #Drops Height column form the dataframe

#Producción

nombrepuntajeDirección
A56Ir a
B45Bombay
C87Delhi
mi99Mysore

Cambiar el nombre de las columnas

Siempre es mejor cambiar el nombre de las columnas y formatearlas al formato más legible que puedan comprender tanto el científico de datos como la compañía. A modo de ejemplo, en el conjunto de datos de los estudiantes, cambiar el nombre de la columna «nombre» como «Sudent_Name» hace que tenga sentido.

student_df.rename(columns={'name': 'Student_Name'}, inplace=True) #renames name column to Student_Name

#Producción

Nombre del estudiantepuntajeDirección
A56Ir a
B45Bombay
C87Delhi
mi99Mysore

Tratar los valores perdidos

Hay muchas alternativas para cuidar los valores perdidos en un conjunto de datos. Depende del científico de datos y del conjunto de datos en mano seleccionar el método más apropiado. Los métodos más utilizados son la imputación del conjunto de datos con media, mediana o moda. La eliminación de esos registros particulares con uno o más valores faltantes y, en algunos casos, la creación de algoritmos de aprendizaje automático como la regresión lineal y K vecino más cercano además se utiliza para tratar los valores faltantes.

Nombre del estudiantepuntajeDirección
A56Ir a
B45Bombay
CDelhi
mi99Mysore
Student_df['col_name'].fillna((Student_df['col_name'].mean()), inplace=True) # Na values in col_name is replaced with mean

#Producción

Nombre del estudiantepuntajeDirección
A96Ir a
B45Bombay
C66Delhi
mi99Mysore

Detección de valores atípicos

Los valores atípicos se pueden considerar como ruido en el conjunto de datos. Puede haber varios motivos para los valores atípicos, como error de entrada de datos, error manual, error experimental, etc.

A modo de ejemplo, en el siguiente ejemplo, el puntaje del estudiante «B» se ingresa 130, lo cual claramente no es correcto.

Nombre del estudiantepuntajeDirecciónalturapeso
A56Ir a16556
B45Bombay3sesenta y cinco
C66Delhi17058
mi99Mysore16760

Trazar la altura en un diagrama de caja da el siguiente resultado

18216pic5-6646427

No todos los valores extremos son valores atípicos, algunos además pueden conducir a descubrimientos interesantes, pero ese es un tema para otro día. Se pueden utilizar pruebas como la prueba de puntuación Z, el diagrama de caja o simplemente trazar los datos en el gráfico revelará los valores atípicos.

Reformar / reestructurar los datos

La mayoría de los datos comerciales proporcionados al científico de datos no están en el formato más legible. Es nuestro trabajo remodelar los datos y llevarlos al formato que se pueda usar para el análisis. A modo de ejemplo, creando una nueva variable a partir de las variables existentes o combinando 2 o más variables.

Notas al pie

Ciertamente, existen numerosas ventajas de trabajar con datos limpios, pocas de las cuales son la precisión mejorada de los modelos, una mejor toma de decisiones por parte de las partes interesadas, la facilidad de implementación del modelo y el ajuste de parámetros, ahorro de tiempo y recursos, y muchas más. Recuerde siempre limpiar los datos como el primer y más importante paso antes de ajustar cualquier modelo.

Referencias

https://realpython.com/

https://www.geeksforgeeks.org/

Los medios que se muestran en este post no son propiedad de DataPeaker y se usan a discreción del autor.

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.