O que um cientista de dados faz diariamente?

Conteúdo

Visão geral

  • O que um cientista de dados faz diariamente? Uma pergunta popular e essencial
  • Vemos esta questão da perspectiva de um cientista de dados através das lentes de 5 Respostas detalhadas e perspicazes de cientistas de dados experientes.

Introdução

Eu sou uma pessoa curiosa por natureza. Sempre que me deparo com um conceito do qual nunca tinha ouvido falar, mal posso esperar para cavar mais fundo e descobrir como funciona. Isso tem sido muito útil por conta própria Ciência de dados viagem.

Mas antes de eu ter minha primeira chance na ciência de dados, Sempre tive curiosidade de saber o que os cientistas de dados faziam todos os dias. Eu deveria apenas construir modelos o tempo todo? Ou é o ditado frequentemente citado sobre mudar de 70 al 80% do nosso tempo, os dados de limpeza eram verdadeiros?

Tenho certeza que você também se perguntou (ou pelo menos você se perguntou) sobre isto. O papel de um cientista de dados pode ser “trabalho mais sexy do século 21”, mas o que isso implica no dia a dia?

o que um cientista de dados faz

Eu decidi investigar isso. Eu queria expandir meus horizontes e entender como os cientistas de dados veem seu papel em diferentes domínios (como PNL). Isso me ajudou a entender melhor nosso papel e por que devemos sempre ler perspectivas diferentes quando se trata de ciência de dados..

Então, aqui está uma lista de 5 principais respostas para ajudá-lo a ter uma ideia do que é uma rotina típica de cientista de dados. Prepare-se para se surpreender: A modelagem não é a função principal (e somente) nas tarefas diárias de um cientista de dados!

Eu também encorajo você a participar de um discussão sobre esta questão aqui. Isso enriquecerá seu entendimento atual sobre o que um cientista de dados faz e suas ideias promoverão uma discussão entre nossa comunidade!!

Observação: Peguei as respostas literalmente do Quora e adicionei meus pensamentos no início de cada resposta. Isso o ajudará a ter uma boa perspectiva sobre o que a solução cobre, sem diluir os pensamentos do autor.. Desfrutar!

Eu gosto desta resposta porque é afiada, direto e simples. O autor até mesmo elaborou um fluxograma e explicou seu procedimento de pensamento de uma forma maravilhosamente ilustrada.. Aqui está sua resposta completa:

O aprendizado de máquina é muito orientado para o processo. Por isso, Estou sempre em algum lugar em uma das imagens abaixo:data_scientist_role

Engenheiros de aprendizado de máquina gastam muito tempo nas duas primeiras imagens (o estágios). A parte divertida está realmente no terceiro estágio, mas é apenas uma pequena parte do que acontece no mundo real.

Algumas coisas importantes para prestar atenção sobre a ciência de dados no mundo real:

  1. Quase todo aprendizado de máquina aplicado é supervisionado. Isso significa que construímos modelos com base em conjuntos de dados estruturados.
  2. As disputas de dados são uma grande parte do que acontece no mundo real
  3. Quando você ouve a palavra supervisionado, pense em classificação e regressão. A maioria dos meus modelos tem problemas de classificação.
  4. A construção do modelo é aproximadamente a 20% do meu trabalho. sim, isso é tudo!
  5. Muitas empresas de pequeno e médio porte não usam o aprendizado profundo. Por que? Porque algoritmos de dados estruturados como XGBoost sempre vencem
  6. Tudo que eu faço é programático
  7. A maioria dos dados do mundo real reside em bancos de dados relacionais. Será seu trabalho construir consultas para extrair os dados que você precisa
  8. Big data são dados não estruturados. Se você tiver que construir seus modelos com base em Big Data, você precisará aprender outro conjunto de habilidades
  9. A nuvem veio para ficar. Eu uso o BigQuery para meus dados estruturados muito grandes. A maioria dos modelos grandes não pode ser construída em seu laptop
  10. Os computadores são monolíngues. Eles só falam números. Quando você passa dados para seu modelo, você está passando um conjunto de dados numéricos altamente estruturado e bem depurado

Eu realmente gosto do uso da visualização por Vinita. A descrição percentual de cada tarefa de ciência de dados é útil e esclarecedora. Vinita também contou com sua experiência para explicar o trabalho passo a passo que um cientista de dados faz. É uma resposta de leitura obrigatória!!

Contrário à crença popular, a ciência de dados não é só glamour. Os resultados da pesquisa CrowdFlower a seguir resumem com precisão um dia típico para um cientista de dados:

data_scientist_role

Há muito retrocesso envolvido. As vezes, Você ainda precisa ser capaz de prever quais consequências a exclusão poderia ter / adicione uma variável.

  • Coleta de conjuntos de dados: Os dados são a força vital da ciência de dados, então passamos muito tempo selecionando-os. Em raras ocasiões, alguns projetos podem já ter muitos dados
  • Limpeza e organização de dados: Esta é a etapa mais longa e crucial de todo o procedimento.. Tem um grande impacto nos resultados financeiros. Em geral, depois dessa etapa, a grande quantidade de dados é reduzida, então, é possível que precisemos compilar mais dados para um treinamento eficaz.
  • Processamento de dados: É a prática de examinar grandes bancos de dados pré-existentes para gerar novas informações. Uma vez que os dados são organizados e armazenados em bancos de dados, em suma, podemos começar a obter valor deles encontrando padrões nos dados.
  • Crie conjuntos de treinamento e conjuntos de teste: Assim que tivermos uma quantidade decente de dados, temos que dividi-lo em conjunto de treinamento e conjunto de teste. Um conjunto de treinamento é um conjunto de dados usado para descobrir relacionamentos potencialmente preditivos. Contém todas as informações sobre a saída esperada. Um conjunto de teste é um conjunto de dados usado para examinar a força e a utilidade de uma ligação preditiva.. Contém variáveis ​​mistas
  • Refinamento de algoritmos: Começamos com um algoritmo esquelético. É muito básico e estabelece aproximadamente o resultado esperado. Depois de algumas sessões, a precisão é registrada, precisão, etc. e o algoritmo é refinado para maximizar sua eficiência.

Esta é uma resposta excelente e identificável. Observe que o aprendizado de máquina, o aspecto mais esperado do trabalho de um cientista de dados, apenas ocupe o 5% do tempo total. Da mesma forma que Vinita, você também explicou suas tarefas em termos de porcentagem. Aqui está a opinião do Justin:

  • Tarefas associadas a PNL (15%). Não é de se admirar que a tecnologia de correção automática do PaperRater exija o uso intenso de analisadores., taggers, expressões regulares e outras vantagens da PNL como parte dos algoritmos principais e módulos de feedback.
  • Aprendizado de máquina (5%). Esta é geralmente a parte mais agradável. Limpeza de dados, Extração / Engenharia / seleção de recursos e construção do modelo
  • Relatórios e análises (10%). Executar consultas, analise a revisão e ajude na tomada de decisões estratégicas
  • Gestão de dados (5%). Configurar e gerenciar servidores de banco de dados, incluindo MySQL, Redis y MongoDB. Projetos maiores podem exigir Hadoop ou Spark
  • Desenvolvimento geral de software (40%). Muitos cientistas de dados têm formação em ciência da computação, então espere colaborar se você tiver experiência adequada. Integração API, desenvolvimento web e em qualquer outro lugar onde você possa agregar valor. Mesmo em uma inicialização de IA, a maior parte do desenvolvimento não envolverá IA
  • De outros (25%). Isso inclui uma grande variedade de tarefas, incluindo postagens de blog, marketing, administração, documentação técnica, suporte técnico, cópia do portal web, E-mails, Encontros, etc.

O autor, Tim Kiely, usar um diagrama de Venn para explicar o que é ciência de dados. Basta dar uma olhada neste diagrama de Venn abaixo: vai explodir sua mente. Tim fala mais sobre o que os cientistas de dados deveriam ser, tendo uma visão um tanto contraditória da definição geral.. Aqui está a solução de Tim:

o “Cientista de Dados” é um pouco um mito, na minha opinião. Isso não significa que eles não estão lá fora, mas eles são muito mais raros do que se pensa popularmente e são mais a exceção do que a regra.

Eu comparo com o título de “Web Master” da bolha dotcom: essas chamadas pessoas que podiam fazer programação completa, desenvolvimento front-end, marketing, tudo. Todos esses papéis / habilidades sempre foram especializadas e permanecem até hoje.

"Cientistas de dados" deveriam ser arquitetos de banco de dados, compreender computação distribuída, ter conhecimento profundo de estatísticas E alguma área de negócios ou experiência no campo. Isso é pedir muito quando qualquer um desses conjuntos de habilidades pode exigir uma carreira para ser construído..

data_scientist_role


Os cientistas de dados com quem trabalhei geralmente têm um Ph.D.. em inteligência artificial ou aprendizado de máquina e são comunicadores eficazes, o que lhes dá a capacidade de direcionar analistas, DevOps pessoal, Desenvolvedores e administradores de banco de dados disponíveis para solucionar problemas com soluções baseadas em dados. Eles descrevem a resposta desejada e permitem que suas equipes preencham as lacunas.

Vamos mergulhar em uma especialização específica de aprendizado de máquina. Um dos meus favoritos – Processamento de linguagem natural (PNL)! Eu queria trazer a opinião de um engenheiro de aprendizado de máquina aqui (uma função com a qual todo cientista de dados deve estar familiarizado). Veja a solução completa de Evan:

Hoje trabalhando em PNL, em geral, incluindo classificação de intenção e extração de entidade. Este é um dia típico para mim:

  • vá trabalhar, abra o GitHub e verifique o painel do ZenHub (algo como Jira, exceto que é muito mais legal). Tive alguns modelos que estavam treinando ontem à noite em nossos servidores e deveria ter recebido um e-mail informando que eles terminaram. Eu fiz!
  • Provavelmente irei passar alguns minutos testando esses novos modelos e, em seguida, ajustarei alguns parâmetros, mais tarde irei reiniciar o procedimento de treinamento
  • No resto do dia, costumo estar programando, trabalhando em um aplicativo Python de back-end que fornecerá a inteligência artificial para um de nossos produtos, ou implementar um novo algoritmo que desejo testar.
  • Como um exemplo, Recentemente li uma postagem sobre recozimento simulado encaixado (CSA) e queria tentar ajustar os parâmetros para XGBoost como uma alternativa para uma pesquisa de grade. CSA é uma forma generalizada de recozimento simulado (PARA), que é um algoritmo para tirar o máximo proveito de uma função que não usa nenhuma informação sobre a derivada da função.
  • Infelizmente, Não consegui encontrar uma implementação em Python, portanto, decidi escrever meu próprio. Dois dias depois, Eu havia enviado meu primeiro pacote para PyPI!

Notas finais

O papel do cientista de dados é verdadeiramente multifacetado, não é assim? MUITOS aspirantes a cientistas de dados presumem que construirão principalmente modelos 24 horas por dia, Mas esse não é o caso.

Existem todos os tipos de tarefas envolvidas em um projeto típico de ciência de dados em que você trabalhará diariamente. Gosto bastante porque abre caminhos para aprender novos conceitos e aplicá-los no mundo real.

Vou postar mais algumas postagens relacionadas à carreira no DataPeaker, Portanto, fique atento e continue aprendendo!

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.