Estadísticas para la ciencia de datos | Comprensión de las estadísticas

Contenidos

Es la marca de una persona verdaderamente inteligente que la estadística mueve.

El aspecto más importante de cualquier enfoque de ciencia de datos es cómo se procesa la información. Cuando hablamos de desarrollar conocimientos a partir de datos, básicamente se trata de explorar las posibilidades. Esas posibilidades en la ciencia de datos se conocen como Análisis estadístico.

La mayoría de nosotros nos preguntamos cómo pueden los modelos de aprendizaje automático procesar fácilmente datos en forma de texto, imágenes, videos y otros formatos altamente desestructurados. Pero, la verdad es que en realidad convertimos esos datos en una forma numérica que no es exactamente nuestros datos, sino su equivalente numérico. Entonces, esto nos lleva al aspecto muy importante de la ciencia de datos.

Con datos en formato numérico, nos brinda infinitas posibilidades para comprender la información que sale de ellos. Las estadísticas actúan como una vía para comprender sus datos y procesarlos para obtener resultados exitosos. No solo el poder de las estadísticas se limita a comprender los datos, sino que también proporciona métodos para medir el éxito de nuestros conocimientos, obtener diferentes enfoques para el mismo problema y obtener el enfoque matemático correcto para sus datos.

Importancia de las estadísticas para la ciencia de datos

La mayoría de los científicos de datos siempre invierten más en el preprocesamiento de datos. Esto requiere una buena comprensión de las estadísticas. Hay algunos pasos generales que siempre deben realizarse para procesar cualquier dato.

  1. Identifique la importancia de las características mediante el uso de varias pruebas estadísticas.
  2. Encontrar la relación entre las funciones para eliminar la posibilidad de que se dupliquen las funciones.
  3. Conversión de las funciones al formato requerido.
  4. Normalizar y escalar los datos. Este paso también implica la identificación de la distribución de datos y la naturaleza de los datos.
  5. Tomando los datos para su posterior procesamiento mediante el uso de los ajustes necesarios en los datos.
  6. Después de procesar los datos, identifique el enfoque / modelo matemático correcto.
  7. Una vez que se obtienen los resultados, los resultados se verifican en las diferentes escalas de medición de precisión.

El procesamiento de datos desde el principio hasta el final del ciclo completo es un requisito de estadísticas en cada paso. Es por eso que un buen estadístico también puede ser un buen científico de datos.

Guía para aprender estadísticas

Siempre es necesario comprender todos los aspectos fundamentales de la estadística. Sin embargo, la mayoría de la gente no tiene muy claro por dónde empezar.

Estos son los pocos conceptos clave que se requieren para acelerar y comprender los fundamentos de la estadística para la ciencia de datos:

Probabilidad

La probabilidad es la necesidad básica para comprender las posibilidades. Para empezar, tomemos un ejemplo muy básico: ¿Cuáles son las posibilidades de que el equipo A gane el partido de fútbol contra el equipo B. Para obtener esta respuesta, podríamos requerir que 100 personas den sus respectivos votos? Número de muestras. Basándonos en esos votos, podemos tener la posibilidad de qué equipo puede ganar el juego.

Pero, en este ejemplo, nos encontramos con otro concepto muy importante que se conoce como muestreo: identificar el conjunto correcto de personas para votar por los resultados. Entonces, la probabilidad es la posibilidad de que el evento ocurra o no. Dependiendo del escenario, podemos construir diferentes soluciones en torno a esto.

Muestreo

El muestreo, como discutimos en el ejemplo anterior, identifica al grupo correcto de personas. La pregunta es cuál es el grupo de personas adecuado. Continuemos con nuestro ejemplo anterior para el escenario anterior, necesitamos a esas 100 personas que tienen un buen conocimiento del fútbol, ​​que conocen la historia del equipo A y B, que no deben estar sesgadas hacia un equipo debido a sus preferencias personales. Por lo tanto, la identificación de la muestra correcta se puede realizar mediante varios enfoques estadísticos. Hay varios tipos de métodos de muestreo: Muestreo aleatorio simple, Muestreo sistemático, Muestreo estratificado, Muestreo agrupado, etc.

Tendencia y distribución de datos

La distribución de datos es un aspecto muy importante. La famosa distribución como Distribución Normal es muy significativa. Por ejemplo, cuando hablamos de la distribución de la altura y el peso del mundo, se trata de datos distribuidos normalmente que muestran la simetría de la naturaleza. La distribución normal tiene que Media, Moda y Mediana coinciden en el pico central. Se supone que estos datos son datos muy precisos. Por lo tanto, identificar la distribución y la asimetría de los datos es un concepto muy importante.

Prueba de hipótesis

Si sabemos si realizar alguna acción o no. Si esas acciones darán un resultado positivo o negativo, entonces podemos tener la ventaja adicional de hacer las cosas correctas. La prueba de hipótesis proporciona la identificación de la situación en la que se debe tomar o no la acción en función de los resultados que producirá. Hay otras pruebas además de las pruebas A / B, prueba Z, prueba T, hipótesis nula con relevancia similar.

Variaciones

Cuando hablamos de diferentes variaciones en los datos. Hablamos de distorsión, error, desplazamiento de datos. Junto con las variaciones en los datos, el rango de los datos, la relación dentro de los datos. Todo esto explica la variabilidad de los datos. Algunos de los términos clave para comprender aquí son: varianza, rango, desviación estándar, desviación de error, covarianza, correlación, causalidad, etc.

Regresión

La regresión en términos simples es encontrar una relación entre las variables independientes y dependientes. La regresión puede ser de dos tipos en términos generales: regresión lineal, regresión lineal múltiple.

Regresión lineal – Y = aX + C

Regresión multilineal – Y = aX + bX1 + cX2 +…. + C

La estadística es un concepto amplio que se limita no solo a lo que existe, sino a lo que se puede derivar de las técnicas existentes para construir algo nuevo. Por lo tanto, la estadística es muy importante para la ciencia de datos, ya que ayuda a comprender las soluciones existentes y a descubrir nuevos desarrollos.

Siempre hay una manera de hacerlo mejor: encuéntrelo y conviértase en un innovador

31026images2016-1374449

Los medios que se muestran en este artículo no son propiedad de DataPeaker y se utilizan a discreción del autor.

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.