Big Data

Análisis estadístico de datos | Análisis estadístico para científicos de datos

Introducción

En lugar de comenzar con la definición de estadística, deseo comenzar con la cita de la definición de Karl Pearson sobre Estadística, «La estadística es la
gramática de la ciencia ”.

Recientemente, todo el mundo habla de datos. Después de escuchar la palabra «Datos» los preguntas básicas que surgen en nuestras mentes son,

¿Qué son los datos?

¿Cómo se recopilan los datos?

¿Cómo se pueden analizar los datos?

¿Cómo se interpretan los datos?

Para responder a todas estas preguntas, el término «Estadísticas» se utiliza. La estadística es la herramienta básica e importante para tratar los datos. Llegando ahora a la definición de estadística, se trata de la recopilación, descriptiva, análisis y conclusión de los datos.

Hay dos tipos de estadísticas, Estadística descriptiva e inferencial.

En Estadísticas descriptivas, a partir de la observación dada, se resumen los datos. El resumen se lleva a cabo considerando la muestra de la población utilizando la media o la desviación estándar.

Hay cuatro categorías diferentes en Estadística descriptiva. Son,

Medida de frecuencia
Medida de dispersión
Medida de tendencia central
Medida de posición.

En función del número de veces que se ha producido un dato en particular, se define la medida de frecuencia. La medida de dispersión se puede definir en función del rango, la varianza, la desviación estándar, etc. La media, la medianaLa mediana es una medida estadística que representa el valor central de un conjunto de datos ordenados. Para calcularla, se organizan los datos de menor a mayor y se identifica el número que se encuentra en el medio. Si hay un número par de observaciones, se promedia los dos valores centrales. Este indicador es especialmente útil en distribuciones asimétricas, ya que no se ve afectado por valores extremos...., la moda y la asimetría de los datos respectivos se incluyen en la medida de tendencia central. Finalmente, con base en el percentil y el cuartil se mide la posición.

Luego mirando en Estadística inferencial, una vez que los datos se recopilan, tabulan y analizan, el resumen o la inferencia se deriva mediante el uso de estadísticas inferenciales. Las inferencias se extraen en función de la variación muestral y el error de observación.

Con base en la información y la conclusión derivada de la muestra, las estadísticas inferenciales nos ayudan a predecir y estimar resultados para la población.

ANÁLISIS ESTADÍSTICO DE DATOS

Las estadísticas se utilizan en una variedad de sectores en nuestra vida diaria para analizar los datos correctos. Sobre la base de la interpretación, los pasos de desarrollo se toman tanto en el sector público como en el privado.

Antes de comenzar con el análisis de datos, hay algunas cosas que debe recordar.

Defina su pregunta, recopile los datos correctos, comprenda los datos, limpie los datos, analice los datos y finalmente interprete los resultados de las preguntas.

¿Qué está definiendo la pregunta? Para una organización, los pasos de mejora se toman del análisis de datos anteriores. Para mejores pasos, habrá algunos objetivos a responder perfectamente para dar una buena interpretación. La pregunta debería dar la posible solución al problema. Para ese encuadre, una pregunta relevante es más importante. Basándose únicamente en las preguntas, se recopilarán los datos. Entonces, definir la pregunta juega un papel importante.

Por ejemplo, en una empresa, si la deserción de empleados es alta. La solución para reducir el traslado del empleado de la empresa debe trazarse para que las variables básicas como la experiencia del empleado, su nivel satisfactorio, su promoción, duración de la jornada laboral, etc., se determinen de manera que se pueda resolver el problema para dar una posible solución.

¿Cómo recopilar los datos correctos? La recopilación de datos tiene dos clasificaciones. Uno son datos primarios y otro son datos secundarios. En datos primarios, los datos se recopilarán a través de cuestionarios, mediante el envío de correos electrónicos o acercándose a cada persona. Por ejemplo censo. Mientras que, en los datos secundarios, son los datos que ya están disponibles en la fuente secundaria como agencia o base de datosUna base de datos es un conjunto organizado de información que permite almacenar, gestionar y recuperar datos de manera eficiente. Utilizadas en diversas aplicaciones, desde sistemas empresariales hasta plataformas en línea, las bases de datos pueden ser relacionales o no relacionales. Su diseño adecuado es fundamental para optimizar el rendimiento y garantizar la integridad de la información, facilitando así la toma de decisiones informadas en diferentes contextos.....

Ahora, antes de recopilar los nuevos datos, identifique los datos existentes que están disponibles en la base de datos. Aparte de eso, recopila los datos relevantes para satisfacer el objetivo. Luego, organice los datos existentes con los nuevos datos para continuar con el análisis. Por ejemplo: Tomando el mismo caso de baja de empleado, los datos a recolectar son experiencia en la empresa, horario laboral, titulación educativa, distancia del hogar, horas de viaje, ascenso, edad del empleado, incremento o caminata, etc., estos Es importante recopilar datos para encontrar el motivo del abandono de los empleados. Puede haber pocas variables que ya estén disponibles en la base de datos y se pueden agregar las nuevas variables que se necesiten.

¿Por qué necesitamos comprender los datos? Una vez recopilados los datos puede haber muchas variables que estén relacionadas directa o indirectamente con el objetivo. Para eso, primero necesitamos estudiar sobre todas las variables, ya sea nominal u ordinal. La preparación de los datos para el análisis se realiza después de comprender los datos. Mientras entendemos, llegamos a conocer los tipos de datos, filas y columnas, que faltan en los datos, encontrar las variables independientes y dependientes, etc.

Puede haber pocas variables que no estén relacionadas con la pregunta que tiene la organización y esas variables se pueden usar en el futuro para análisis futuros. Para encontrar ese tipo de variables, es más importante comprender los datos. Tomando el mismo ejemplo de deserción de empleados, puede haber datos relacionados con la familia, como miembros de la familia, años de experiencia en una empresa anterior, estatus social, etc., y cada variableEn estadística y matemáticas, una "variable" es un símbolo que representa un valor que puede cambiar o variar. Existen diferentes tipos de variables, como las cualitativas, que describen características no numéricas, y las cuantitativas, que representan cantidades numéricas. Las variables son fundamentales en experimentos y estudios, ya que permiten analizar relaciones y patrones entre diferentes elementos, facilitando la comprensión de fenómenos complejos.... debe entenderse de manera que dividir los datos de tal manera por responder a la pregunta.

¿Cómo se realiza la limpieza de los datos? La limpieza de datos es el proceso de modificar los datos, eliminar las variables duplicadas y crear variables ficticias si es necesario. Eliminar las columnas no deseadas que no están relacionadas con la pregunta. Si la limpieza de datos no es adecuada, puede conducir a una menor precisión del modelo y puede tender a conclusiones engañosas.

Una vez que se realiza la limpieza de datos, los datos correctos para responder a la pregunta están listos. La manipulación de datos se realiza de muchas maneras, como trazar los datos, crear tablas dinámicas para las variables, correlación, regresión y detectar valores atípicos. El proceso puede tener lugar. Durante la etapa de manipulación, puede ser necesario continuar con un conjunto de datos existente o eliminar algún conjunto de datos o puede ser necesario agregar algunos datos más para responder la pregunta. Después de todas estas etapas, los datos requeridos estarán listos para su análisis.

¿Cómo analizar los datos? A la hora de empezar a hablar de análisis lo principal es esa selección de modelos. La selección del modelo juega un papel importante para analizar los datos y dar respuesta al objetivo. La definición de las variables dependientes e independientes es la etapa importante al analizar los datos. Actualmente, las técnicas de aprendizaje automático se utilizan para el análisis de datos, de modo que las predicciones e interpretaciones se pueden realizar fácilmente. Pero aún así, algunos objetivos se pueden responder directamente mientras se realiza la visualización de datos y el análisis estadístico básico. Las herramientas utilizadas para analizar los datos son, Python, Excel, programación R, SPSS, STATA, etc.,

Correlación se utiliza para encontrar la relación o asociación entre dos o más variables. La correlación se encuentra entre los valores -1 a +1. La interpretación es que, si la correlación es +1 entonces está fuertemente correlacionada positivamente, -1 entonces está fuertemente correlacionada negativamente y 0 implica que no existe correlación. La correlación funciona tanto en el caso de datos cuantitativos como cualitativos.

Llegando a regresión, este análisis se utiliza cuando necesitamos encontrar las dependencias de una variable sobre la otra. El valor de la regresión se encuentra entre 0 y 1. Si el valor de la regresión es 1, entonces es un ajuste perfecto y 0, entonces no es un buen ajuste. El modelo predictivo se puede realizar mediante análisis de regresión. Esto también utiliza datos cuantitativos y cualitativos. Hay dos tipos de análisis de regresión. Regresión lineal y regresión lineal múltiple.

En Regresión lineal, tiene una variable dependiente y una variable independiente. Por ejemplo, si el precio es bajo, las ventas serán altas. En el caso de la regresión lineal múltiple modelo, tiene una variable independiente y varias variables dependientes. Por ejemplo, el precio de la casa depende del número de habitaciones de la casa, área de cada habitación, número de plazas de aparcamiento, instalaciones, ubicación, etc.

En el caso de Análisis de supervivencia, si los datos se refieren al momento de ocurrencia de un evento, entonces se puede aplicar el análisis de supervivencia. El evento tendrá el resultado como 0 o 1. Por ejemplo, la supervivencia del paciente de un ataque cardíaco se puede denotar con 0 o 1. 0 denota a la persona que no sobrevivió y 1 denota que sobrevivió. Esto se puede predecir teniendo las variables como edad, fumador o no fumador, persona que vive en zonas urbanas o rurales, tiene tensión arterial o no. Sobre la base de todos los factores que se tienen en cuenta, se puede estimar el estado de supervivencia de la persona. Actualmente, el análisis de supervivencia se puede aplicar en el caso de pacientes con COVID.

Finalmente llegando a la parte de Técnicas de aprendizaje automático, como Random Forest, Decision Tree, KNN, etc., se pueden aplicar en el caso de la técnica de predicción y clasificación. En el ejemplo de la deserción de empleados, tomar como objetivo el empleado o la empleada que puede dejar la empresa se puede determinar mediante la técnica de clasificación. Se pueden desarrollar varios modelos y, basándose en la precisión de los modelos, se puede determinar qué modelo puede predecir la futura deserción de empleados. Si es mayor la precisión, ese modelo en particular se puede utilizar para predecir los datos futuros.

Interpretación el resultado: Después de analizar los datos, es hora de interpretar el resultado. Al interpretar el resultado verifique si el análisis respondió a todas las preguntas que se enmarcaron, los datos recolectados ayudaron en el análisis, y de la interpretación hay un resultado positivo para la mejora del objetivo. Al considerar nuestro ejemplo de deserción de empleados, la parte de análisis debería sugerir algunos pasos mejores o mejoras para reducir la deserción de empleados de la empresa.