Paquetes clave de Python para la ciencia de datos

Contenidos

Introducción

69487ds20lib-9770510

Especialmente las bibliotecas de Python para ciencia de datos, los modelos de aprendizaje automático son muy interesantes, fáciles de entender y absolutamente que puede aplicar de inmediato y puede sentir la información de los datos y darse cuenta / visualizar la naturaleza del conjunto de datos.

Incluso los algoritmos complejos se pueden implementar en dos o tres líneas de código, todos los conceptos matemáticos principales están incrustados dentro de los paquetes para el punto de vista de la implementación.

Por supuesto, esto es algo diferente e interesante que otras bibliotecas de programación que he visto hasta ahora, ¡esa es la razón principal por la que Python juega un papel vital en el espacio de la IA con esta simplicidad y robustez! ¡Yo creo que sí! Me di cuenta, entendí a fondo y lo disfruté.

¿Qué es un paquete en Python? A paquete es una colección de Pitón módulos y ensamblados en un solo paquete. Una vez que importa en las celdas de su cuaderno, puede comenzar a usar clases, métodos, atributos, etc., pero antes de eso, debe necesitar y usar el paquete e importarlo a su archivo / paquete.

69696package-3000770

Analicemos los paquetes clave en Python para ciencia de datos y aprendizaje automático.

  1. Pandas
  2. NumPy
  3. Aprender Scikit
  4. Matplotlib
  5. Seaborn

Pandas

25912pandas-2559970

Se utiliza principalmente para operaciones y manipulaciones de datos estructurados. Pandas ofrece potentes capacidades de procesamiento de datos, nunca había visto características tan maravillosas en mi viaje de TI. Proporciona alto rendimiento, fácil de usar y se aplica en estructuras de datos y para analizar los datos.

¿Cómo podrías instalar la biblioteca de Pandas? esto es muy simple, ejecute el siguiente comando en su Jupiter Notebook.

!pip install pandas

¡La biblioteca de Pandas se instalará correctamente! ¿Qué sigue? juega con esta biblioteca.

La sintaxis para importar Scikit en su NoteBook

import pandas as pd

Entonces, su Cuaderno está listo para extraer todas las funciones dentro de los pandas. hagamos algunas cosas aquí.

Los pandas tienen las siguientes capacidades.

87156pandas20can20do-5630456

A) Series y DataFrame

Los componentes principales de los pandas son Serie y Marco de datos. Echemos un vistazo rápido a esto. Series no es más que un diccionario y una colección de series, podríamos construir el marco de datos fusionando series, eche un vistazo a la siguiente muestra. lo entenderías mejor.

30191ssdf-6886762

Código crea series y marcos de datos

import pandas as pd
Eno=[100, 101,102, 103, 104,105]
Empname= ['Raja', 'Babu', 'Kumar','Karthik','Rajesh','xxxxx']
Eno_Series = pd.Series(Eno) 
Empname_Series = pd.Series(Empname)
df = { 'Eno': Eno_Series, 'Empname': Empname_Series } 
employee = pd.DataFrame(frame)
employee

B. Cargar datos en un objeto de marco de datos

cereal_df = pd.read_csv("cereal.csv")
cereal_df.head(5)

C. Soltar columna del objeto de marco de datos

cereal_df.drop(["type"], axis = 1, inplace = True)
cereal_df.head(5)
57946df_drop-7813281

D. Seleccionar filas del objeto de marco de datos

cereal_df_filtered = cereal_df[cereal_df['rating'] >= 68]
cereal_df_filtered.head()

E. Columna de grupo en el marco de datos

cereal_df_groupby = cereal_df.groupby('shelf')
#print the first entries
cereal_df_groupby.first()
13608groupby-7003004

F.Extraer una fila del marco de datos

# return the value 
result = cereal_df.loc[0,'name']
result

Hasta ahora, hemos discutido múltiples funcionalidades en la biblioteca de pandas. hay muchos más.

NumPy

NumPy se considera una de las bibliotecas de aprendizaje automático más populares en Python, la mejor y más importante característica de NumPy es la interfaz y las manipulaciones de Array.

¿Tiene miedo de las matemáticas mientras implementa su modelo de ciencia de datos / aprendizaje automático? No se preocupe, NumPy hace que las complejas implementaciones matemáticas sean funciones muy simples. Pero recuerde comprender los requisitos y utilizar el paquete en consecuencia.

La sintaxis para importar NumPy en su NoteBook

import numpy as np
94948numpy20can20do-3607293

Analicemos algunas cosas aquí, cómo NumPy hace magia con datos dados.

A. Formación de matriz simple usando NumPy (1-D, 2-D y 3D)

import numpy as np

#1-D arrays

arr1 = np.array([1, 2, 3, 4, 5])

print("1-D Array")

print(arr1)

print("===================")

#2-D arrays

print("2-D Array")

arr2 = np.array([[1, 2, 3], [4, 5, 6]])

print(arr2)

print("===================")

#3-D arrays

print("3-D Array")

arr3 = np.array([[[1, 2, 3], [4, 5, 6]], [[1, 2, 3], [4, 5, 6]]])

print(arr3)

print("===================")

Producción

1-D Array
[1 2 3 4 5]
===================
2-D Array
[[1 2 3]
 [4 5 6]]
===================
3-D Array
[[[1 2 3]
  [4 5 6]]

 [[1 2 3]
  [4 5 6]]]
===================

B. Array Slicing usando NumPy

#Slicing in python means taking elements from given index range [start:end-1] /[start:end:step].
arr = np.array([1, 2, 3, 4, 5, 6, 7])
print("Slicing at index 1 to 5")
print(arr[1:5])

Producción

Slicing at index 1 to 5
[2 3 4 5]
arr = np.array([1, 2, 3, 4, 5, 6, 7])
print(arr[4:])
Output
[5 6 7]

También tenemos Rebanado Negativo :). Eso es tan simple, solo tenemos que mencionar [-x:-y],

¿Por qué no pruebas el tuyo propio?

C. Forma de matriz y remodelación usando NumPy

arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])
print("================================")
print("Shape of the array")
print(arr.shape)
print("================================")
Output
================================
Shape of the array
(2, 4)
================================
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])
print("Before Reshape the array")
print(arr)
print("================================")
newarr = arr.reshape(4, 3)
print("After Reshape the array")
print(newarr)
print("================================")
output 
Before Reshape the array
[ 1  2  3  4  5  6  7  8  9 10 11 12]
================================
After Reshape the array
[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
================================

D. División de matrices usando NumPy

arr = np.array([1, 2, 3, 4, 5, 6])
print("Splitting NumPy Arrays into 3 Arrays")
print("================================")
newarr = np.array_split(arr, 3)
print(newarr[0])
print(newarr[1])
print(newarr[2])
print("================================")
output
Splitting NumPy Arrays into 3 Arrays
================================
[1 2]
[3 4]
[5 6]

E.Sorting Array usando NumPy

arr = np.array(['banana', 'cherry', 'apple'])
print("Splitting NumPy Arrays into 3 Arrays")
print("================================")
print(np.sort(arr))
print("================================")
output
Splitting NumPy Arrays into 3 Arrays
================================
['apple' 'banana' 'cherry']
================================

Si ha comenzado a jugar con datos usando NumPy….

Ciertamente, necesita cada vez más tiempo … para comprender los conceptos, todos son

extremadamente organizado en este paquete. ¡créeme!

Aprender Scikit

28350scikit-learn-9813446

Scikit La biblioteca Learn es una de las bibliotecas más ricas de la familia Python, contiene una gran cantidad de algoritmos de aprendizaje automático y otras bibliotecas clave relacionadas con el rendimiento. Python Scikit-learn permite a los usuarios realizar varias tareas específicas de aprendizaje automático. Para funcionar, debe funcionar junto con las bibliotecas SciPy y NumPy, esto es algo interno, de todos modos, téngalo en cuenta. Pocos algoritmos aquí para sus opiniones.

  1. Regresión
  2. Clasificación
  3. Agrupación
  4. Selección de modelo
  5. Reducción de dimensionalidad

La sintaxis para importar Scikit en su NoteBook

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

Paquetes de visualización de Python

Bibliotecas Matplotlib y Seaborn

99166visual-8676075

Python proporciona funciones de gráficos 2D con la biblioteca Matplotlib. esto es muy simple y fácil de entender. puede lograrlo con 1 o 2 líneas. Incluso la visualización 3D también está ahí.

La sintaxis para importar Scikit en su cuaderno de notas

import matplotlib.pyplot as plt

import seaborn as sns

Espero que haya trabajado en varios gráficos en la hoja de cálculo de Excel y otras herramientas de BI. Pero en Python, los paquetes de visualización internos proporcionan gráficos y tablas de muy alta calidad.

Matplotlib y Seaborn

Matplotlib es uno de los paquetes de visualización principales y básicos, que proporciona histogramas (Nivel de frecuencia), Gráfica de barras (Graficado univariado y bivariado), Gráfico de dispersión (Agrupación), etc.,

51723few20glimpse20from20matplotlib-5567073

Biblioteca de visualización de datos rica y de lujo de Seaborn. Proporciona una interfaz de alto nivel para dibujar gráficos estadísticos atractivos e informativos. Diagramas de caja (Distribución de datos con diferentes cuartiles), Violin Plots (Distribución de datos y Densidad de probabilidad), Gráficos de barras (Comparaciones entre características categóricas), Mapa de calor (Correlación de características en términos de representación matricial), Nube de palabras (Representación visual de datos de texto)

Seaborn – Histograma

import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('iris')
sb.distplot(df['petal_length'],kde = False)
plt.show()
86755his-3632578

Seaborn – Diagrama de caja

df = sb.load_dataset('iris')
sb.boxplot(x = "species", y = "petal_length", data = df)
plt.show()
73185boxplot-3429144

Seaborn – Violinplot

sdf = sb.load_dataset('tips')
sb.violinplot(x = "day", y = "total_bill", data=df)
plt.show()
52176violine-7990378

Entonces, ¡todas estas bibliotecas nos están ayudando a construir un buen modelo y a jugar con los datos!

Pero recuerde siempre, antes del uso de los paquetes induviales, debe comprender la necesidad y los requisitos del paquete y luego importarlo a su archivo / paquete y jugar con eso.

34112seaborn20collection1-4026892

Espero que ahora tenga la sensación y cierto nivel de detalles sobre los paquetes de Python para la ciencia de datos. ¡Veremos conceptos más detallados en los próximos días! ¡Gracias por tu tiempo!

Los medios que se muestran en este artículo no son propiedad de DataPeaker y se utilizan a discreción del autor.

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.