Estatística e conceitos de probabilidade para ciência de dados

Conteúdo

Estatística é a gramática da ciência.
– Karl Pearson

O que são dados?

95476what-is-data_ver_1-1698555

Créditos de imagem

Dados são as informações coletadas por meio de diferentes fontes, que podem ser de natureza qualitativa ou quantitativa.. Em sua maioria, os dados coletados são usados ​​para analisar e obter informações sobre um determinado tópico.

Por exemplo:

1. Tamanho do cilindro, quilometragem, cor, etc. para a venda de um carro

2.Se as células do corpo são malignas ou benignas para detectar câncer

Tipo de dados

Dados numéricos

Os dados numéricos são informações em números, quer dizer, numérico que é apresentado como uma medida quantitativa das coisas.

Por exemplo:

  1. Alturas e pesos das pessoas
  2. Preços das ações

uma) Dados discretos

Os dados discretos são as informações que geralmente falam de algum evento, quer dizer, só pode assumir valores específicos. Eles geralmente são baseados em números inteiros, mas não necessariamente.

Por exemplo:

  1. Número de vezes que uma moeda foi lançada
  2. Tamanhos de sapatos de pessoas

b) Dados contínuos

Dados contínuos são informações que podem ter valores infinitos, quer dizer, pode assumir qualquer valor dentro de um intervalo.

Por exemplo:

Quantos centímetros de chuva caiu em um determinado dia?

Dados categóricos

Este tipo de dados é de natureza qualitativa e não tem significado matemático inerente.. É um tipo de valor fixo sob o qual é atribuído ou “categorizar” uma unidade de observação.

Por exemplo:

  1. Gênero
  2. Dados binários (sim / não)
  3. Atributos de um veículo como uma cor, quilometragem, número de portas, etc.

Dados ordinais

Este tipo de dados é a combinação de dados numéricos e categóricos, quer dizer, dados categóricos que têm algum significado matemático.

Por exemplo:

Avaliações do restaurante de 1 uma 5, ser 1 o mais baixo e 5 a mais alta

ESTATISTICAS:

meios de comunicação, meio e modo

Significar

Em matemática e estatística, a média é a média das observações numéricas que é igual à soma das observações dividida pelo número de observações.

A = frac {1} {n} limites de soma {i = 1} ^ n a_i significa estatísticas e probabilidade

Onde,

UMA = significando aritmética
Norte = número de valores
ao = valores do conjunto de dados

Mediana

A mediana dos dados, quando organizado em valor crescente ou decrescente, é a observação central dos dados, quer dizer, o ponto que separa a metade superior da metade inferior dos dados.

Para calcular a mediana:

  • Organize seus dados em ordem crescente ou decrescente.
  • um número ímpar de pontos de dados: o valor médio é a mediana.
  • número par de pontos de dados: a média dos dois valores médios é a mediana.

mediana estatística e probabilidade

X = uma lista ordenada de valores no conjunto de dados
Norte = número de valores no conjunto de dados

Caminho

a caminho de um conjunto de pontos de dados é o valor mais frequente.

Por exemplo:

5, 2,6,5, 1,1,2,5, 3,8,5, 9,5 são o conjunto de pontos de dados. Aqui 5 é o caminho porque acontece com mais frequência.

Variância e desvio padrão

Diferença

Matematicamente e estatisticamente, diferença é definido como a média das diferenças quadradas da média. Mas para entender, isso descreve como estendido os dados estão em um conjunto de dados.

As etapas para calcular a variação usando um exemplo:

Vamos encontrar a variação de (1,4,5,4,8)

  1. Encontre a média dos pontos de dados quer dizer (1 + 4 + 5 + 4 + 8) / 5 = 4.4
  2. Encontre as diferenças com a média quer dizer (-3,4, -0,4, 0,6, -0,4, 3,6)
  3. Encontre as diferenças ao quadrado quer dizer (11,56, 0,16, 0,36, 0,16, 12,96)
  4. Encontre a média das diferenças quadradas quer dizer, 11,56 + 0,16 + 0,36 + 0,16 + 12,96 / 5 = 5,04

A fórmula para o mesmo é:

Variância estatística e de probabilidade

Desvio padrão

O desvio padrão mede a variação ou propagação de pontos de dados em um conjunto de dados. Representa a proximidade do ponto de dados com a média e é calculado como a raiz quadrada da variância.

Em ciência de dados, o desvio padrão é geralmente usado para identificar outliers em um conjunto de dados. Os pontos de dados que estão dentro de um desvio padrão da média são considerados incomuns.

A fórmula para o desvio padrão é:

Desvio padrão estatístico e probabilidade

sigma = desvio padrão da população
Norte = o tamanho da população
XI = cada valor populacional
mu = a população média

Dados populacionais V / s Dados de amostra

Dados populacionais refere-se ao conjunto de dados completo, enquanto que Dados de amostra refere-se a uma parte dos dados populacionais que são usados ​​para análise. A amostragem é feita para facilitar a análise.

Ao usar dados de amostra para análise, a fórmula de variância é ligeiramente diferente. Se houver um total de n amostras, nós dividimos por n-1 em vez de n:

Dados estatísticos e de probabilidade de população

S ^ 2 = variância da amostra
XI = o valor de uma observação
barra {x} = o valor médio das observações
Norte = o número de observações

PROBABILIDADE:

25667v4-460px-calcular-probabilidade-etapa-2-versão-5-jpg-4341515

Créditos de imagem

O que é probabilidade?

O conceito de probabilidade é extremamente simples. Significa a probabilidade de um evento ocorrer ou a probabilidade de um evento ocorrer.

A fórmula de probabilidade é:

12-4112115

Por exemplo:

A probabilidade de a moeda mostrar cara quando lançada é 0,5.

A probabilidade condicional

A probabilidade condicional é a probabilidade de que um evento ocorra desde que outro evento já tenha ocorrido.

A fórmula de probabilidade condicional:

Probabilidade condicional usando tabelas de dois fatores (Artigo) |  academia Khan

Por exemplo:

Os alunos de uma turma realizaram duas provas da disciplina Matemática. No primeiro teste, a 60% de alunos passam enquanto apenas o 40% dos alunos passam em ambos os testes. Qual a porcentagem de alunos que passaram no primeiro teste, eles passaram no segundo teste?

50266screenshot202021-04-1620201708-2647063

Teorema de Bayes

O teorema de Bayes é um conceito estatístico muito importante, usado em muitas indústrias., como saúde e finanças. A fórmula de probabilidade condicional que fizemos anteriormente também foi derivada deste teorema.

Usado para calcular a probabilidade de uma hipótese com base nas probabilidades de vários dados fornecidos na hipótese.

A fórmula do teorema de Bayes é:

Teorema de Bayes

UMA, B = eventos
P (UMA | B) = probabilidade de A dado B é verdadeira
P (B | UMA) = probabilidade de B dado A é verdadeira
P (UMA)P P (B) = as probabilidades independentes de A e B

Por exemplo:

Suponha que haja um teste de HIV que pode identificar pacientes com HIV + positivo com precisão o 99% das vezes, e que também tem um resultado negativo com precisão para o 99% de pessoas HIV negativas. Aqui, só o 0,3% da população total é soropositiva.

95224bayes20real-9834283

CONCLUSÃO

Os tópicos de estatísticas e probabilidade abordados no artigo são realmente importantes, mas existem muitos outros tópicos, como funções de distribuição de probabilidade e seus tipos, covariância e correlação, etc. que não foram abordados aqui porque requerem atenção separada devido ao seu gráfico. natureza.

Matemática e estatística são o coração da ciência de dados. Os tópicos abordados neste artigo são a base de muitos algoritmos, fórmulas para calcular erros e compreensão gráfica das coisas, então eles são muito importantes e não podem ser ignorados.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.