O que é assimetria nas estatísticas?

Conteúdo

Visão geral

  • Skewness é um conceito estatístico chave que você deve conhecer nos campos da ciência de dados e análise..
  • Saiba o que é assimetria e por que ela é importante para você como profissional de ciência de dados

Introdução

O conceito de assimetria está embutido em nossa maneira de pensar. Quando olhamos para uma visualização, nossa mente intuitivamente discerne o padrão naquele gráfico.

Como você já sabe, A Índia tem mais de 50% de sua população menos que 25 anos e mais que 65% Menor que 35 anos. Se você plotar a distribuição de idade da população da Índia, você verá que há uma saliência no lado esquerdo do tempo e o lado direito é comparativamente plano. Em outras palavras, podemos dizer que há um viés para o final, verdade?

Então, mesmo que você não tenha lido sobre assimetria como profissional de ciência de dados ou analítica, você definitivamente interagiu com o conceito de uma forma informal. E na verdade é um tópico bem fácil em estatísticas e, porém, muitas pessoas lêem na pressa de aprender outros conceitos aparentemente complexos de ciência de dados. Para mim, Isso é um erro.

Feature_image-2220139

Skewness é um conceito estatístico fundamental que todos na ciência de dados e análise devem conhecer.. É algo de que simplesmente não podemos fugir. E tenho certeza que você vai entender no final deste artigo..

Aqui, vamos discutir o conceito de assimetria da maneira mais fácil possível. Você aprenderá sobre assimetria, seus tipos e sua importância no campo da ciência de dados. Portanto, aperte o cinto porque você aprenderá um conceito que valorizará ao longo de sua carreira em ciência de dados..

Observação: Aqui estão alguns recursos para ajudá-lo a mergulhar no mundo das estatísticas para ciência de dados:

Tabela de conteúdo

  • O que é assimetria?
  • Por que a assimetria é importante??
  • O que é uma distribuição normal?
  • Compreendendo a distribuição distorcida positivamente
  • Compreendendo a distribuição distorcida negativamente

O que é assimetria?

A assimetria é a medida da assimetria de uma distribuição de probabilidade idealmente simétrica e é dada por terceiro momento padronizado. Se isso parece muito complexo, não se preocupe! Deixe-me quebrar isto para você.

Em palavras simples, skewness é a medida de quanto a distribuição de probabilidade de uma variável aleatória se desvia do distribuição normal. Agora, Eu posso estar pensando: Por que estou falando sobre distribuição normal aqui?

Nós vamos, a distribuição normal é a distribuição de probabilidade sem qualquer viés. Você pode ver a imagem abaixo que mostra uma distribuição simétrica que é basicamente uma distribuição normal e você pode ver que é simétrica em ambos os lados da linha tracejada. Alem disso, existem dois tipos de assimetria:

  • Viés positivo
  • Inclinação negativa
sk1-4508172

Créditos: Wikipedia

A distribuição de probabilidade com sua cauda no lado direito é uma distribuição distorcida positivamente e aquela com sua cauda no lado esquerdo é uma distribuição distorcida negativamente.. Se você achar os números acima confusos, está bem. Vamos entender isso com mais detalhes posteriormente..

Antes disso, Vamos entender por que o skew é um conceito tão importante para você como um profissional de ciência de dados.

Por que a assimetria é importante??

Agora, sabemos que a assimetria é a medida da assimetria e seus tipos são distinguidos pelo lado em que a cauda da distribuição de probabilidade está localizada. Mas, Por que é importante saber a distorção dos dados?

Primeiro, modelos lineares funcionam sob a suposição de que a distribuição da variável independente e a variável de destino são semelhantes. Portanto, saber a distorção dos dados nos ajuda a criar melhores modelos lineares.

Em segundo lugar, vamos dar uma olhada na seguinte distribuição. É a distribuição de potência dos automóveis:

sk2-7118031

Você pode ver claramente que a distribuição acima é positivamente distorcida. Agora, digamos que você queira usar isso como uma função para o modelo que irá prever milhas por galão (milhas por galão) de um carro.

Uma vez que nossos dados são tendenciosos positivamente aqui, significa que você tem um número maior de pontos de dados com valores baixos, quer dizer, carros com menos potência. Então, quando treinamos nosso modelo com esses dados, terá um desempenho melhor na previsão das milhas por galão de carros com menor potência em comparação com aqueles com maior potência.

O que mais, assimetria nos fala sobre a direção de Valores atípicos. Você pode ver que nossa distribuição está distorcida positivamente e a maioria dos outliers estão presentes no lado direito da distribuição..

Observação: A assimetria não nos informa sobre o número de outliers. Só nos diz o endereço.

Agora que sabemos por que a inclinação é importante, vamos entender as distribuições que mostrei antes.

O que é distribuição simétrica / normal?

sk3-9644395

Créditos: Wikipedia

sim, voltamos novamente com a distribuição normal. É usado como referência para determinar a assimetria de uma distribuição. Como eu mencionei antes, a distribuição normal ideal é a distribuição de probabilidade com quase nenhuma distorção. É quase perfeitamente simétrico. Devido a isto, o valor de assimetria para uma distribuição normal é zero.

Mas, Por que é quase perfeitamente simétrico e não absolutamente simétrico?

Isso é porque, na realidade, nenhum dado de palavra real tem uma distribuição perfeitamente normal. Portanto, mesmo o valor de assimetria não é exatamente zero; é quase zero. Embora o valor de zero seja usado como referência para determinar a assimetria de uma distribuição.

Você pode ver na imagem acima que a mesma linha representa a média, mediana e modo. É porque a média, a mediana e o modo de uma distribuição perfeitamente normal são iguais.

Até agora, entendemos a distorção da distribuição normal usando uma distribuição de probabilidade ou frequência. Agora, vamos entender isso em termos de um gráfico de caixa porque essa é a maneira mais comum de olhar para uma distribuição no espaço da ciência de dados.

sk6-1881560

A imagem acima é um gráfico de caixa de distribuição simétrica. Você notará aqui que a distância entre Q1 e Q2 e Q2 e Q3 é igual, quer dizer:

sk7-4653667

Mas isso não é suficiente para concluir se uma distribuição está distorcida ou não.. Também damos uma olhada no comprimento do bigode; se eles são iguais, então podemos dizer que a distribuição é simétrica, quer dizer, não é tendencioso.

Agora que discutimos a assimetria na distribuição normal, é hora de aprender sobre os dois tipos de assimetria que discutimos anteriormente. Vamos começar com a assimetria positiva.

Compreendendo a distribuição distorcida positivamente

sk4-6760864

Fonte: Wikipedia

Uma distribuição positivamente enviesada é a distribuição com a cauda em seu lado direito.. O valor de assimetria para uma distribuição com inclinação positiva é maior que zero. Como você deve ter entendido olhando para a figura, o valor médio é o maior, seguido pela mediana e então o modo.

Então, Por que isso está acontecendo?

Nós vamos, a resposta para isso é que a distorção da distribuição é para a direita; torna a média maior do que a mediana e, eventualmente, move-se para a direita. O que mais, o modo ocorre na frequência mais alta da distribuição que está no lado esquerdo da mediana. Portanto, moda <mediana <meios de comunicação.

sk8-4791198

No gráfico de caixa acima, você pode ver que Q2 está presente mais perto de Q1. Isso representa uma distribuição distorcida positivamente. Em termos de quartis, pode ser dado por:

sk9-4225069

Neste caso, era muito fácil saber se os dados estavam distorcidos ou não. Mas, E se tivermos algo assim?

sk10-2273723

Aqui, Q2-Q1 e Q3-Q2 são iguais e, porém, a distribuição é positivamente distorcida. Os mais atentos terão notado que o comprimento do bigode direito é maior que o do esquerdo. Disso, podemos concluir que os dados são tendenciosos positivamente.

Então, o primeiro passo é sempre verificar a igualdade de Q2-Q1 e Q3-Q2. Se for igual, procuramos o comprimento dos bigodes.

Compreendendo a distribuição distorcida negativamente

sk5-7632383

Fonte: Wikipedia

Como você já deve ter adivinhado, uma distribuição com inclinação negativa é a distribuição com a cauda em seu lado esquerdo. O valor de assimetria para uma distribuição com inclinação negativa é menor que zero. Você também pode ver na figura acima que o meios de comunicação <mediana <moda.

sk11-6047787

No box plot, a relação entre os quartis para uma assimetria negativa é dada por:

sk12-1879096

Semelhante ao que fizemos antes, se Q3-Q2 e Q2-Q1 forem iguais, então olhamos para o comprimento dos bigodes. E se o comprimento do bigode esquerdo é maior do que o da direita, então podemos dizer que os dados são enviesados ​​negativamente.

sk13-8221419

Como transformamos dados distorcidos?

Já que você sabe quantos dados distorcidos podem afetar os recursos de previsão de nosso modelo de aprendizado de máquina, é melhor transformar dados distorcidos em dados normalmente distribuídos. Aqui estão algumas maneiras de transformar seus dados distorcidos:

  • Transformação de poder
  • Transformação de registro
  • Transformação exponencial

Observação: A seleção da transformação depende das características estatísticas dos dados.

Notas finais

Neste artigo, cobrimos o conceito de assimetria, seus tipos e por que é importante no campo da ciência de dados. Falamos sobre assimetria no nível conceitual, mas se você quiser ir mais fundo, você pode explorar sua parte matemática como uma próxima etapa.

O que mais, Você pode ler artigos sobre outros tópicos estatísticos importantes:

Conecte-se comigo na seção de comentários abaixo se tiver alguma dúvida.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.