Os principais conceitos para investigar seu conjunto de dados

Conteúdo

Este artigo foi publicado como parte do Data Science Blogathon.

"Não se envolva em modelagem. Primeiro, Entenda e explore seus dados! “

Sobre

Este é um conselho comum para muitos cientistas de dados. Se o seu conjunto de dados estiver bagunçado, construção de modelo não vai te ajudar a resolver seu problema. O que vai acontecer é “lixo dentro, lixo lá fora”. Para construir um algoritmo de aprendizado de máquina poderoso. Precisamos explorar e entender nosso conjunto de dados antes de definir uma tarefa preditiva e resolvê-la.

Introdução

Antes de continuar, os cientistas de dados passam a maior parte do tempo explorando, limpar e preparar seus dados para modelagem. Isso os ajuda a construir modelos precisos e verificar as suposições necessárias para ajustar os modelos..

Crie visualizações de dados significativas, prever tendências futuras a partir de dados.

Se você é bom em compreender a preparação de dados, quase completo 80% do trabalho.

Tabela de conteúdo

  • Você faz as perguntas certas??
  • Analise diferentes subconjuntos de dados
  • Explore as tendências
  • FEncontre seus pontos cegos
  • Investigue os porquês

Faça as perguntas certas

Quer se trate de resultados de pesquisa, dados de vendas ou uma campanha de e-mail, você coletou dados para um propósito específico. Por extensão, aplique esse propósito às perguntas que você faz sobre os próprios dados. Começar com algumas perguntas específicas pode manter sua investigação focada e permitir que você veja a floresta por entre as árvores.. Uma pergunta como “Como está minha renda durante o último 3 anos?” É vago e permite a exploração, mas também a confusão.

Em vez de, algo parecido “qual canal gera mais receita durante o último 3 anos” tem uma resposta mais clara. As perguntas subsequentes podem ser: “Qual departamento gera mais receita por ano” o “as vendas de equipamentos de escalada aumentaram ou diminuíram este ano?” É importante manter uma questão específica em mente ao iniciar a análise de dados para fornecer alguma estrutura e evitar tropeçar em falsos positivos.

66598one-7540058

Analise diferentes subconjuntos de dados:

É mais fácil detectar relacionamentos se você analisar dados de diferentes subconjuntos. Por exemplo, segmente seus dados de receita por canal, como no gráfico acima, ou por departamento. Experimente os subconjuntos e variáveis ​​que fazem mais sentido para as perguntas que você desenvolveu na etapa anterior..

Este layout se concentra em permitir que você permaneça dentro de sua linha de pensamento e faça uma transição suave de uma pergunta para outra., sem tropeçar no formato ou equações. Também pode ser útil usar o que seria chamado de tabela dinâmica no Excel. Em nosso exemplo de revendedor de equipamentos para atividades ao ar livre, você pode alternar de uma visualização trimestral para a receita de um trimestre do ano simplesmente selecionando em um menu suspenso. O gráfico abaixo é uma receita agregada para cada trimestre entre 2010 e 2013.

74333two-7673471

Explore as tendências

Faça experiências com suas variáveis ​​de tempo. Olha o trimestre, o mês ou a semana, tudo o que faz sentido com base no que você está procurando. As vezes, o que está faltando também é tão importante quanto o que está lá. Se houver falhas em sua análise de dados, Anote. Pode ser útil fazer anotações ao longo de sua análise., lembretes do que você gostaria de pesquisar ou discutir com colegas mais tarde.

Dê uma olhada nesta análise de receita trimestral para o departamento. Não é muito útil porque é difícil detectar tendências.

69209três-9997805

Este gráfico de linha anual torna muito mais fácil ver que Escalada é o departamento de crescimento mais rápido e que as vendas de Corrida diminuíram nos últimos três anos..

63951four-8815038

Encontre seus pontos cegos

  • Realmente foi coletado
    para a tarefa que você deve fazer. E você é solicitado a fazer o
    os dados validam um resultado que já foi decidido.
  • A maioria das organizações não pensa cientificamente. Eles não criam uma hipótese e, em seguida, decidem quais dados precisam coletar para validá-la. Eles escolhem um resultado e ajustam os dados.
  • Frequentemente, os dados vêm de algo completamente diferente, muitas vezes como um subproduto de um processo comercial. Então, alguém teve uma ideia brilhante “Nós poderíamos usar isso para trabalhar”
  • Analisando o gráfico a seguir, gráfico ilustra informações sobre pontos cegos em um conjunto de dados. Os dados ocultos serão uma das desvantagens para se obter uma solução. Em geral, descobrir outliers será uma solução.

  • Correção de outlier com base no parâmetro R. O gráfico à esquerda mostra os dados originais com outliers detectados. O gráfico do meio usa um valor de ruído de zero para colocar ou corrigir a localização de outliers no modelo linear. O gráfico à direita posiciona o outlier próximo ao modelo linear a uma distância com base em um valor positivo para R (R = 0.5).
  • 87583six-4177881

Investigue os porquês:

69565five-5701755

A análise de dados é um processo contínuo e a melhor maneira de abordá-la é tentar cometer cada vez menos erros. Provavelmente, você nunca terá todos os dados que deseja ou precisa para responder a todas as perguntas sobre o seu negócio., mas pelo menos você pode buscar mais respostas e melhores decisões. Este ciclo de feedback continua (perguntar, analisar, investigar, repetir) Pode melhorar, mas nunca será perfeito.

Notas finais

Compreender e interpretar dados é uma etapa muito importante no aprendizado de máquina. Nesta postagem do blog, tentamos fornecer uma visão geral das técnicas que podem ajudá-lo a entender melhor seus dados

Dependendo do tamanho, dimensão e tipo de seus dados, você pode escolher o algoritmo. Por exemplo, quando você tem grandes dados brutos, você pode usar exemplos representativos em vez de amostras aleatórias. Se você tiver um grande conjunto de dados, você também pode encontrar as dimensões importantes para entender as amostras representativas.

Técnicas diferentes podem fornecer insights diferentes sobre seus dados. É seu trabalho usar as ferramentas para resolver o mistério como um detetive..

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.