Estatística é a gramática da ciência.
– Karl Pearson
O que são dados?
Dados são as informações coletadas por meio de diferentes fontes, que podem ser de natureza qualitativa ou quantitativa.. Em sua maioria, os dados coletados são usados para analisar e obter informações sobre um determinado tópico.
Por exemplo:
1. Tamanho do cilindro, quilometragem, cor, etc. para a venda de um carro
2.Se as células do corpo são malignas ou benignas para detectar câncer
Tipo de dados
Dados numéricos
Os dados numéricos são informações em números, quer dizer, numérico que é apresentado como uma medida quantitativa das coisas.
Por exemplo:
- Alturas e pesos das pessoas
- Preços das ações
uma) Dados discretos
Os dados discretos são as informações que geralmente falam de algum evento, quer dizer, só pode assumir valores específicos. Eles geralmente são baseados em números inteiros, mas não necessariamente.
Por exemplo:
- Número de vezes que uma moeda foi lançada
- Tamanhos de sapatos de pessoas
b) Dados contínuos
Dados contínuos são informações que podem ter valores infinitos, quer dizer, pode assumir qualquer valor dentro de um intervalo.
Por exemplo:
Quantos centímetros de chuva caiu em um determinado dia?
Dados categóricos
Este tipo de dados é de natureza qualitativa e não tem significado matemático inerente.. É um tipo de valor fixo sob o qual é atribuído ou “categorizar” uma unidade de observação.
Por exemplo:
- Gênero
- Dados binários (sim / não)
- Atributos de um veículo como uma cor, quilometragem, número de portas, etc.
Dados ordinais
Este tipo de dados é a combinação de dados numéricos e categóricos, quer dizer, dados categóricos que têm algum significado matemático.
Por exemplo:
Avaliações do restaurante de 1 uma 5, ser 1 o mais baixo e 5 a mais alta
ESTATISTICAS:
meios de comunicação, meio e modo
Significar
Em matemática e estatística, a média é a média das observações numéricas que é igual à soma das observações dividida pelo número de observações.
Onde,
= | significando aritmética | |
= | número de valores | |
= | valores do conjunto de dados |
Mediana
A mediana dos dados, quando organizado em valor crescente ou decrescente, é a observação central dos dados, quer dizer, o ponto que separa a metade superior da metade inferior dos dados.
Para calcular a mediana:
- Organize seus dados em ordem crescente ou decrescente.
- um número ímpar de pontos de dados: o valor médio é a mediana.
- número par de pontos de dados: a média dos dois valores médios é a mediana.
= | uma lista ordenada de valores no conjunto de dados | |
= | número de valores no conjunto de dados |
Caminho
a caminho de um conjunto de pontos de dados é o valor mais frequente.
Por exemplo:
5, 2,6,5, 1,1,2,5, 3,8,5, 9,5 são o conjunto de pontos de dados. Aqui 5 é o caminho porque acontece com mais frequência.
Variância e desvio padrão
Diferença
Matematicamente e estatisticamente, diferença é definido como a média das diferenças quadradas da média. Mas para entender, isso descreve como estendido os dados estão em um conjunto de dados.
As etapas para calcular a variação usando um exemplo:
Vamos encontrar a variação de (1,4,5,4,8)
- Encontre a média dos pontos de dados quer dizer (1 + 4 + 5 + 4 + 8) / 5 = 4.4
- Encontre as diferenças com a média quer dizer (-3,4, -0,4, 0,6, -0,4, 3,6)
- Encontre as diferenças ao quadrado quer dizer (11,56, 0,16, 0,36, 0,16, 12,96)
- Encontre a média das diferenças quadradas quer dizer, 11,56 + 0,16 + 0,36 + 0,16 + 12,96 / 5 = 5,04
A fórmula para o mesmo é:
Desvio padrão
O desvio padrão mede a variação ou propagação de pontos de dados em um conjunto de dados. Representa a proximidade do ponto de dados com a média e é calculado como a raiz quadrada da variância.
Em ciência de dados, o desvio padrão é geralmente usado para identificar outliers em um conjunto de dados. Os pontos de dados que estão dentro de um desvio padrão da média são considerados incomuns.
A fórmula para o desvio padrão é:
= | desvio padrão da população | |
= | o tamanho da população | |
= | cada valor populacional | |
= | a população média |
Dados populacionais V / s Dados de amostra
Dados populacionais refere-se ao conjunto de dados completo, enquanto que Dados de amostra refere-se a uma parte dos dados populacionais que são usados para análise. A amostragem é feita para facilitar a análise.
Ao usar dados de amostra para análise, a fórmula de variância é ligeiramente diferente. Se houver um total de n amostras, nós dividimos por n-1 em vez de n:
= | variância da amostra | |
= | o valor de uma observação | |
= | o valor médio das observações | |
= | o número de observações |
PROBABILIDADE:
O que é probabilidade?
O conceito de probabilidade é extremamente simples. Significa a probabilidade de um evento ocorrer ou a probabilidade de um evento ocorrer.
A fórmula de probabilidade é:
Por exemplo:
A probabilidade de a moeda mostrar cara quando lançada é 0,5.
A probabilidade condicional
A probabilidade condicional é a probabilidade de que um evento ocorra desde que outro evento já tenha ocorrido.
A fórmula de probabilidade condicional:
Por exemplo:
Os alunos de uma turma realizaram duas provas da disciplina Matemática. No primeiro teste, a 60% de alunos passam enquanto apenas o 40% dos alunos passam em ambos os testes. Qual a porcentagem de alunos que passaram no primeiro teste, eles passaram no segundo teste?
Teorema de Bayes
O teorema de Bayes é um conceito estatístico muito importante, usado em muitas indústrias., como saúde e finanças. A fórmula de probabilidade condicional que fizemos anteriormente também foi derivada deste teorema.
Usado para calcular a probabilidade de uma hipótese com base nas probabilidades de vários dados fornecidos na hipótese.
A fórmula do teorema de Bayes é:
= | eventos | |
= | probabilidade de A dado B é verdadeira | |
= | probabilidade de B dado A é verdadeira | |
= | as probabilidades independentes de A e B |
Por exemplo:
Suponha que haja um teste de HIV que pode identificar pacientes com HIV + positivo com precisão o 99% das vezes, e que também tem um resultado negativo com precisão para o 99% de pessoas HIV negativas. Aqui, só o 0,3% da população total é soropositiva.
CONCLUSÃO
Os tópicos de estatísticas e probabilidade abordados no artigo são realmente importantes, mas existem muitos outros tópicos, como funções de distribuição de probabilidade e seus tipos, covariância e correlação, etc. que não foram abordados aqui porque requerem atenção separada devido ao seu gráfico. natureza.
Matemática e estatística são o coração da ciência de dados. Os tópicos abordados neste artigo são a base de muitos algoritmos, fórmulas para calcular erros e compreensão gráfica das coisas, então eles são muito importantes e não podem ser ignorados.
Relacionado
Postagens Relacionadas:
- Bancos de dados NoSQL que todo cientista de dados deve conhecer! 2020!
- O Quadrante Mágico 2020 Gartner já está disponível! Confira as melhores ferramentas de análise
- Livros eletrônicos de aprendizado de máquina para cientistas de dados e engenheiros de inteligência artificial
- O que é atribuição de canal? Modelagem de atribuição de canal