Conceptos de estadística y probabilidad para la ciencia de datos

Contenidos

La estadística es la gramática de la ciencia.
– Karl Pearson

¿Qué son los datos?

95476what-is-data_ver_1-1698555

Créditos de imagen

Los datos son la información recopilada a través de diferentes fuentes que pueden ser de naturaleza cualitativa o cuantitativa. En su mayoría, los datos recopilados se utilizan para analizar y obtener información sobre un tema en particular.

Por ejemplo:

1. Tamaño del cilindro, kilometraje, color, etc. para la venta de un automóvil

2.Si las células del cuerpo son malignas o benignas para detectar el cáncer

Tipos de datos

Datos numéricos

Los datos numéricos son la información en números, es decir, numérica que se presenta como una medida cuantitativa de las cosas.

Por ejemplo:

  1. Alturas y pesos de las personas
  2. Precios de las acciones

a) Datos discretos

Los datos discretos son la información que a menudo cuenta de algún evento, es decir, solo puede tomar valores específicos. A menudo se basan en números enteros, pero no necesariamente.

Por ejemplo:

  1. Número de veces que se lanzó una moneda
  2. Tallas de calzado de personas

b) Datos continuos

Los datos continuos son la información que tiene la posibilidad de tener valores infinitos, es decir, puede tomar cualquier valor dentro de un rango.

Por ejemplo:

¿Cuántos centímetros de lluvia cayeron en un día determinado?

Datos categóricos

Este tipo de datos es de naturaleza cualitativa y no tiene un significado matemático inherente. Es una especie de valor fijo bajo el cual se asigna o «categoriza» una unidad de observación.

Por ejemplo:

  1. Género
  2. Datos binarios (sí / no)
  3. Atributos de un vehículo como color, kilometraje, número de puertas, etc.

Datos ordinales

Este tipo de datos es la combinación de datos numéricos y categóricos, es decir, datos categóricos que tienen algún significado matemático.

Por ejemplo:

Calificaciones de restaurantes de 1 a 5, siendo 1 la más baja y 5 la más alta

ESTADÍSTICAS:

Media, mediana y moda

Significar

En matemáticas y estadística, la media es el promedio de las observaciones numéricas que es igual a la suma de las observaciones dividida por el número de observaciones.

A = frac {1} {n} suma límites_ {i = 1} ^ n a_i significa Estadística y probabilidad

dónde,

A=significado aritmetico
norte=número de valores
ai=valores del conjunto de datos

Mediana

La mediana de los datos, cuando se organizan en valor ascendente o descendente, es la observación central de los datos, es decir, el punto que separa la mitad superior de la mitad inferior de los datos.

Para calcular la mediana:

  • Organice los datos en orden ascendente o descendente.
  • un número impar de puntos de datos: el valor medio es la mediana.
  • número par de puntos de datos: el promedio de los dos valores medios es la mediana.

mediana estadística y probabilidad

X=una lista ordenada de valores en el conjunto de datos
norte=número de valores en el conjunto de datos

Modo

los modo de un conjunto de puntos de datos es el valor más frecuente.

Por ejemplo:

5, 2,6,5, 1,1,2,5, 3,8,5, 9,5 son el conjunto de puntos de datos. Aquí 5 es el modo porque ocurre con mayor frecuencia.

Varianza y desviación estándar

Diferencia

Matemáticamente y estadísticamente, diferencia se define como el promedio de las diferencias al cuadrado de la media. Pero para entender, esto describe cómo extendido los datos están en un conjunto de datos.

Los pasos para calcular la varianza usando un ejemplo:

Encontremos la varianza de (1,4,5,4,8)

  1. Encuentra la media de los puntos de datos es decir (1 + 4 + 5 + 4 + 8) / 5 = 4.4
  2. Encuentra las diferencias con la media es decir (-3,4, -0,4, 0,6, -0,4, 3,6)
  3. Encuentra las diferencias al cuadrado es decir (11,56, 0,16, 0,36, 0,16, 12,96)
  4. Encuentra el promedio de las diferencias al cuadrado es decir, 11,56 + 0,16 + 0,36 + 0,16 + 12,96 / 5 = 5,04

La fórmula para lo mismo es:

Varianza estadística y de probabilidad

Desviación Estándar

La desviación estándar mide la variación o dispersión de los puntos de datos en un conjunto de datos. Representa la cercanía del punto de datos a la media y se calcula como la raíz cuadrada de la varianza.

En ciencia de datos, la desviación estándar se usa generalmente para identificar los valores atípicos en un conjunto de datos. Los puntos de datos que se encuentran a una desviación estándar de la media se consideran inusuales.

La fórmula para la desviación estándar es:

Desviación estándar de estadística y probabilidad

sigma=desviación estándar de población
norte=el tamaño de la población
x_i=cada valor de la población
mu=la media de la población

Datos de población V / s Datos de muestra

Datos de población se refiere al conjunto de datos completo, mientras que Data de muestra se refiere a una parte de los datos de población que se utiliza para el análisis. El muestreo se realiza para facilitar el análisis.

Cuando se utilizan datos de muestra para el análisis, la fórmula de varianza es ligeramente diferente. Si hay un total de n muestras, dividimos por n-1 en lugar de n:

Datos de población de estadística y probabilidad

S ^ 2=varianza de la muestra
x_i=el valor de una observación
barra {x}=el valor medio de las observaciones
norte=el número de observaciones

PROBABILIDAD:

25667v4-460px-calculate-probability-step-2-version-5-jpg-4341515

Créditos de imagen

¿Qué es la probabilidad?

El concepto de probabilidad es extremadamente simple. Significa la probabilidad de que ocurra un evento o la probabilidad de que ocurra un evento.

La fórmula de probabilidad es:

12-4112115

Por ejemplo:

La probabilidad de que la moneda muestre cara cuando se lanza es de 0,5.

La probabilidad condicional

La probabilidad condicional es la probabilidad de que ocurra un evento siempre que ya haya ocurrido otro evento.

La fórmula de la probabilidad condicional:

Probabilidad condicional mediante tablas de dos factores (artículo) |  academia Khan

Por ejemplo:

Los alumnos de una clase han realizado dos pruebas de la asignatura Matemáticas. En la primera prueba, el 60% de los alumnos aprueba mientras que solo el 40% de los alumnos aprueban ambas pruebas. ¿Qué porcentaje de estudiantes que aprobaron la primera prueba, aprobaron la segunda prueba?

50266screenshot202021-04-1620201708-2647063

Teorema de Bayes

El teorema de Bayes es un concepto estadístico muy importante que se utiliza en muchas industrias, como la salud y las finanzas. La fórmula de probabilidad condicional que hemos hecho anteriormente también se ha derivado de este teorema.

Se utiliza para calcular la probabilidad de una hipótesis en función de las probabilidades de varios datos proporcionados en la hipótesis.

La fórmula del teorema de Bayes es:

Teorema de Bayes

A, B=eventos
P (A | B)=probabilidad de A dado B es verdadera
P (B | A)=probabilidad de B dada A es verdadera
P (A), P (B)=las probabilidades independientes de A y B

Por ejemplo:

Supongamos que existe una prueba del VIH que puede identificar a los pacientes VIH + positivos con precisión el 99% de las veces, y que también tiene un resultado negativo con precisión para el 99% de las personas VIH negativas. Aquí, solo el 0,3% de la población total es seropositiva.

95224bayes20real-9834283

CONCLUSIÓN

Los temas de estadística y probabilidad cubiertos en el artículo son realmente importantes, pero hay muchos otros temas como las funciones de distribución de probabilidad y sus tipos, covarianza y correlación, etc.que no se han cubierto aquí porque requieren atención separada debido a su gráfico. naturaleza.

Las matemáticas y las estadísticas son el corazón de la ciencia de datos. Los temas cubiertos en este artículo son la base de muchos algoritmos, fórmulas de cálculo de errores y comprensión gráfica de las cosas, por lo que son muy importantes y no pueden ignorarse.

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.