Modelagem estatística | Introducción al modelado estadístico

Conteúdo

Este artigo foi publicado como parte do Data Science Blogathon.

¿Qué es un modelo estadístico?

El modelado es un arte, así como una ciencia, y está dirigido a encontrar un buen modelo aproximadocomo base para la inferencia estadística” – Burnham & Anderson

Un modelo estadístico es un tipo de modelo matemático que forma parte de la supuestos realizado para describir el proceso de generación de datos.

Centrémonos en los dos términos resaltados arriba:

  1. ¿Tipo de modelo matemático? El modelo estadístico no es determinista a diferencia de otros modelos matemáticos donde las variables tienen valores específicos. Las variables en los modelos estadísticos son estocásticas, quer dizer, tienen distribuciones de probabilidad.
  2. ¿Supuestos? Mas, ¿cómo nos ayudan esos supuestos a comprender las propiedades o características de los datos verdaderos? Em poucas palavras, estos supuestos facilitan el cálculo de la probabilidad de un evento.

Cotización un ejemplo para comprender mejor el papel de los supuestos estadísticos en el modelado de datos:

Suposição 1: Suponiendo que tenemos 2 dados justos y que cada cara tiene la misma probabilidad de aparecer, quer dizer, 1/6. Agora, podemos calcular la probabilidad de que dos dados muestren 5 O que 1/6 * 1/6. Como podemos calcular la probabilidad de cada evento, constituye un modelo estadístico.

Suposição 2: Los dados están ponderados y todo lo que sabemos es que la probabilidad de la cara 5 isto é 1/8, lo que facilita el cálculo de la probabilidad de que ambos dados muestren 5 O que 1/8 * 1/8. Pero no conocemos la probabilidad de otras caras, por lo que no podemos calcular la probabilidad de cada evento. Por tanto, este supuesto no constituye un modelo estadístico.

¿Por qué necesitamos el modelado estadístico?

El modelo estadístico juega un papel fundamental en la realización de inferencias estadísticas que ayudan a hacer proposiciones sobre las propiedades y características desconocidas de la población como se muestra a continuación:

1) Estimacion:

Es la idea central detrás del aprendizaje automático, quer dizer, averiguar el número que puede estimar los parametros de distribución.

Observe que o Estimador é uma variável aleatoria en sí mismo, mientras que una estimación es un número único que nos da una idea de la distribución del proceso de generación de datos. Por exemplo, la media y sigma de la distribución gaussiana

2) Intervalo de confianza:

Da una barra de error alrededor del número de estimación única, quer dizer, un rango de valores para indicar la confianza en la estimación obtenida sobre la base de varias muestras. Por exemplo, la estimación A se calcula a partir de 100 muestras y tiene un intervalo de confianza más amplio, mientras que la estimación B se calcula a partir de 10000 muestras y, portanto, tiene un intervalo de confianza más estrecho.

3) Testando hipóteses

Es una declaración de búsqueda de evidencia estadística. Comprendamos mejor la necesidad de realizar modelos estadísticos con la ayuda de un ejemplo a continuación.

51737research_paers-2486221
Fonte: Autor

El objetivo es comprender la distribución subyacente para calcular la probabilidad de que un investigador seleccionado al azar hubiera escrito, Digamos, 3 artigos de pesquisa.

Tenemos una variable aleatoria discreta con 8 (9-1) parámetros para aprender, quer dizer, probabilidad de 0,1,2 .. trabajos de investigación. UMA medir que aumenta el número de parámetros a estimar, también lo es la necesidad de tener tantas observaciones, pero este no es el propósito del modelado de datos.

Então, podemos reducir el número de incógnitas de 8 parámetros a solo 1 parámetro lambda, simplemente asumiendo que los datos siguen la distribución de Poisson.

Nuestra suposición de que los datos siguen la distribución de Poisson podría ser una simplificación en comparación con el proceso de generación de datos reales, pero es una buena aproximación.

Tipos de supuestos de modelado:

Ahora que entendemos la importancia del modelado estadístico, entendamos el tipos de supuestos de modelado:

1) Paramétrico: Asume un conjunto finito de parámetros que capturan todo lo relacionado con los datos. Si conocemos el parámetro θ que encarna muy bien el proceso de generación de datos, entonces las predicciones (x) son independientes de los datos observados (D)

2) Não paramétrico: Supone que ningún conjunto finito de parámetros puede definir la distribución de datos. La complejidad del modelo es ilimitada y crece con la cantidad de datos

3) Semiparamétrico: Es un modelo híbrido cuyos supuestos se encuentran entre enfoques paramétricos y no paramétricos. Consta de dos componentes: estructural (paramétrico) y variación aleatoria (no paramétrico). El modelo de riesgo proporcional de Cox es un ejemplo popular de supuestos semiparamétricos.

Definición de un modelo estadístico: (S, P)

S: Supongamos que tenemos una colección de copias N iid como X1, X2, X3… Xn a través de un experimento estadístico (es el proceso de generar o recolectar datos). Todos estos Las variables aleatorias se pueden medir en un espacio muestral que se denota por S.

PAG: Es el conjunto de distribuciones de probabilidad en S que contiene la distribución que es una representación aproximada de nuestra distribución real.

Internalicemos el concepto de espacio muestral antes de comprender cómo se podría representar un modelo estadístico para estas distribuciones.

1) Bernoulli: {0,1}

2) Gaussiano: (-∞, + ∞)

Então, ahora hemos visto algunos ejemplos de espacio muestral de algunas de las familias de la distribución, ahora veamos cómo se define un modelo estadístico:

1) Bernoulli: ({0,1}, (Ber (p)) p∈ (0,1))

2) Gaussiano: ((-∞, + ∞), (N (𝜇, 0.3)) 𝜇∈R)

Nós vamos, modelos especificados y mal especificados:

¿Qué es la especificación del modelo? De acordo com Wikipedia definição:

Especificación del modelo consiste en seleccionar una forma funcional adecuada para el modelo. Por exemplo, dados “ingreso personal” (e) junto com “años de escolaridad” (s) e “experiencia en el trabajo” (x), podríamos especificar una relación funcional y = f (s, x)} Como segue:

98761specify_model-7543196

Modelo de especificación incorrecta: ¿Alguna vez le ha sucedido que el modelo converge correctamente en datos simulados, pero en el momento en que llegan los datos reales, su robustez se degrada y ya no converge? Nós vamos, esto podría suceder normalmente si el modelo que desarrolló no coincide con los datos, lo que generalmente se conoce como Modelo de especificación incorrecta. Podría deberse a que la clase de distribución asumida para el modelado no contiene la distribución de probabilidad desconocida p de donde se extrae la muestra, quer dizer, el verdadero proceso de generación de datos.

21963capture-9498034

Fonte: Autor

Espero que este artículo le haya dado una comprensión de qué es un modelo estadístico, por qué necesitamos tales modelos, qué papel juegan los supuestos y cómo pueden esos supuestos decidir la bondad de nuestro modelo.

*El proceso de distribución / generación de datos real o real al que se hace referencia a lo largo de este artículo implica que existe una distribución de probabilidad que es inducida por el proceso que genera los datos observados.

Referências:

https://mc-stan.org/docs/2_22/stan-users-guide/well-specified-models.html

http://mlss.tuebingen.mpg.de/2015/slides/ghahramani/gp-neural-nets15.pdf

https://courses.edx.org/courses/course-v1:MITx+18.6501x+3T2019/course/

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.