20 funciones de pandas imprescindibles para el análisis de datos exploratorios

Contenidos

Introducción

es un componente importante, así como uno de los pasos más subestimados en cualquier proyecto de ciencia de datos. EDA es esencial para un análisis de datos bien definido y estructurado y debe realizarse antes de la fase de modelado de aprendizaje automático.

Implica encontrar ideas a partir de los datos tras una observación cuidadosa y resumir aún más sus principales características. Generalmente, los datos de la vida real con los que trabajamos contienen mucho «ruido» y, por lo tanto, realizar el análisis de datos manualmente en dichos conjuntos de datos se convierte en un proceso complicado y tedioso.

1ybvocmjufnt2jbkn2khxnq-5649516

Tutorial de introducción a Python: cálculo científico con pandas | por entusiasta del análisis de datos | Medio

Pitón es uno de los lenguajes más utilizados para Ciencia de los datos particularmente debido a la presencia de varias bibliotecas y paquetes que facilitan el análisis de datos.

Respectivamente, Pandas es una de las bibliotecas más populares de Python que ayuda a presentar los datos de una manera adecuada para el análisis a través de su Serie y Marco de datos estructuras de datos. Proporciona varias funciones y métodos para simplificar y acelerar el proceso de análisis de datos.

Aquí utilizamos el conjunto de datos “TITANIC” para realizar la implementación práctica de todas las funciones.

En primer lugar, importamos la biblioteca de Numpy y pandas y luego leemos el conjunto de datos.

importar Numpy y pandas EDA

Ahora comencemos

1. df.head (): De forma predeterminada, devuelve las primeras 5 filas del marco de datos. Para cambiar el valor predeterminado, puede insertar un valor entre paréntesis para cambiar el número de filas devueltas.

cabeza pandas eda

2. df.tail (): De forma predeterminada, devuelve las últimas 5 filas del marco de datos. Esta función se usa para obtener las últimas n filas. Esta función devuelve las últimas n filas del objeto según la posición.

pandas de cola

3. df.info (): Ayuda a obtener una descripción general rápida del conjunto de datos. Esta función se utiliza para obtener un breve resumen del marco de datos. Este método imprime información sobre un DataFrame, incluido el tipo de índice y los tipos de columna, valores no nulos y uso de memoria.

pandas de información

4. df. Forma: Muestra el número de dimensiones así como el tamaño en cada dimensión. Dado que los marcos de datos son bidimensionales, la forma que devuelve es el número de filas y columnas.

forma pandas

5. df.tamaño: Devuelve un int que representa el número de elementos de este objeto. Devuelve el número de filas si es Serie; de ​​lo contrario, devuelve el número de filas multiplicado por el número de columnas si es DataFrame.

pandas de tamaño

6. df.ndim: Devuelve la dimensión del marco / serie de datos. 1 para una dimensión (serie), 2 para dos dimensiones (marco de datos).

pandas ndim

7. df.describe (): Devuelve un resumen estadístico de las columnas numéricas presentes en el conjunto de datos. Este método calcula algunas medidas estadísticas como el percentil, la media y la desviación estándar de los valores numéricos de la Serie o DataFrame.

describir

8. df.sample (): Se utiliza para generar una muestra de forma aleatoria en una fila o en una columna. Le permite seleccionar valores aleatoriamente de una serie o DataFrame. Es útil cuando queremos seleccionar una muestra aleatoria de una distribución.

muestra

9. df.isnull () .sum (): Devuelve el número de valores perdidos en cada columna.

es nulo

10. df.nunique (): Devuelve el número de elementos únicos del objeto. Cuenta el número de entradas únicas en columnas o filas. Es muy útil en características categóricas, especialmente en casos en los que no conocemos el número de categorías de antemano.

nunique

11. df.index: Esta función busca un elemento dado desde el principio de la lista y devuelve el índice más bajo donde aparece el elemento.

índice

12. columnas de df .: Devuelve las etiquetas de columna del marco de datos.

columnas

13. df.memory_usage (): Devuelve cuánta memoria usa cada columna en bytes. Es útil especialmente cuando trabajamos con grandes marcos de datos.

uso de memoria

14. df.dropna (): Esta función se utiliza para eliminar una fila o columna de un marco de datos que tiene un NaN o valores faltantes.

dropna

15. df.nlargest (): Devuelve el primero norte filas ordenadas por columnas en orden descendente.

más grande

16. df.isna (): Esta función devuelve un marco de datos lleno de valores booleanos con verdadero que indica valores faltantes.

isna

17. df.duplicated (): Devuelve una serie booleana que denota filas duplicadas.

duplicado

18. value_counts (): Esta función se utiliza para obtener una serie que contiene recuentos de valores únicos. El objeto resultante estará en orden descendente de modo que el primer elemento sea el elemento que se presente con más frecuencia. Excluye los valores perdidos de forma predeterminada. Esta función es útil cuando queremos verificar el problema del desequilibrio de clases para una variable categórica.

value_counts

19. df.corr (): Esta función se utiliza para encontrar la correlación por pares de todas las columnas en el marco de datos. Los valores faltantes se excluyen automáticamente. Para cualquier columna de tipo de datos no numéricos en el marco de datos, se ignora. Esta función es útil mientras hacemos la selección de características al observar la correlación entre las características y la variable de destino o entre las variables.

corr

20. tipos de df.d: Esta función muestra el tipo de datos de cada columna.

Notas finales

¡Gracias por leer!

Si le gustó esto y desea saber más, visite mis otros artículos sobre ciencia de datos y aprendizaje automático haciendo clic en el enlace

No dude en ponerse en contacto conmigo en Linkedin, Correo electrónico.

¿Algo no mencionado o quieres compartir tus pensamientos? No dude en comentar a continuación y me pondré en contacto con usted.

Hasta entonces, quédese en casa, manténgase seguro para evitar la propagación de COVID-19, ¡y sigue aprendiendo!

Sobre el Autor

Chirag Goyal

Actualmente, estoy cursando mi Licenciatura en Tecnología (B.Tech) en Ciencias de la Computación e Ingeniería de la Instituto Indio de Tecnología de Jodhpur (IITJ). Estoy muy entusiasmado con el aprendizaje automático, el aprendizaje profundo y la inteligencia artificial.

Los medios que se muestran en este artículo no son propiedad de DataPeaker y se utilizan a discreción del autor.

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.