O que um cientista de dados faz diariamente?

Visão geral

O que um cientista de dados faz diariamente? Uma pergunta popular e essencial
Vemos esta questão da perspectiva de um cientista de dados através das lentes de 5 Respostas detalhadas e perspicazes de cientistas de dados experientes.

Introdução

Eu sou uma pessoa curiosa por natureza. Sempre que me deparo com um conceito do qual nunca tinha ouvido falar, mal posso esperar para cavar mais fundo e descobrir como funciona. Isso tem sido muito útil por conta própria Ciência de dados viagem.

Mas antes de eu ter minha primeira chance na ciência de dados, Sempre tive curiosidade de saber o que os cientistas de dados faziam todos os dias. Eu deveria apenas construir modelos o tempo todo? Ou é o ditado frequentemente citado sobre mudar de 70 al 80% do nosso tempo, os dados de limpeza eram verdadeiros?

Tenho certeza que você também se perguntou (ou pelo menos você se perguntou) sobre isto. O papel de um cientista de dados pode ser “trabalho mais sexy do século 21”, mas o que isso implica no dia a dia?

Eu decidi investigar isso. Eu queria expandir meus horizontes e entender como os cientistas de dados veem seu papel em diferentes domínios (como PNL). Isso me ajudou a entender melhor nosso papel e por que devemos sempre ler perspectivas diferentes quando se trata de ciência de dados..

Então, aqui está uma lista de 5 principais respostas para ajudá-lo a ter uma ideia do que é uma rotina típica de cientista de dados. Prepare-se para se surpreender: A modelagem não é a função principal (e somente) nas tarefas diárias de um cientista de dados!

Eu também encorajo você a participar de um discussão sobre esta questão aqui. Isso enriquecerá seu entendimento atual sobre o que um cientista de dados faz e suas ideias promoverão uma discussão entre nossa comunidade!!

Observação: Peguei as respostas literalmente do Quora e adicionei meus pensamentos no início de cada resposta. Isso o ajudará a ter uma boa perspectiva sobre o que a solução cobre, sem diluir os pensamentos do autor.. Desfrutar!

Eu gosto desta resposta porque é afiada, direto e simples. O autor até mesmo elaborou um fluxograma e explicou seu procedimento de pensamento de uma forma maravilhosamente ilustrada.. Aqui está sua resposta completa:

O aprendizado de máquina é muito orientado para o processo. Por isso, Estou sempre em algum lugar em uma das imagens abaixo:

Engenheiros de aprendizado de máquina gastam muito tempo nas duas primeiras imagens (o estágios). A parte divertida está realmente no terceiro estágio, mas é apenas uma pequena parte do que acontece no mundo real.

Algumas coisas importantes para prestar atenção sobre a ciência de dados no mundo real:

Quase todo aprendizado de máquina aplicado é supervisionado. Isso significa que construímos modelos com base em conjuntos de dados estruturados.
As disputas de dados são uma grande parte do que acontece no mundo real
Quando você ouve a palavra supervisionado, pense em classificação e regressão. A maioria dos meus modelos tem problemas de classificação.
A construção do modelo é aproximadamente a 20% do meu trabalho. sim, isso é tudo!
Muchas pequeñas y medianas compañías no usan el aprendizado profundoAqui está o caminho de aprendizado para dominar o aprendizado profundo em, Uma subdisciplina da inteligência artificial, depende de redes neurais artificiais para analisar e processar grandes volumes de dados. Essa técnica permite que as máquinas aprendam padrões e executem tarefas complexas, como reconhecimento de fala e visão computacional. Sua capacidade de melhorar continuamente à medida que mais dados são fornecidos a ele o torna uma ferramenta fundamental em vários setores, da saúde... em absoluto. Por que? Porque algoritmos de dados estruturados como XGBoost sempre vencem
Tudo que eu faço é programático
A maioria dos dados do mundo real reside em bancos de dados relacionais. Será seu trabalho construir consultas para extrair os dados que você precisa
Big data são dados não estruturados. Se você tiver que construir seus modelos com base em Big Data, você precisará aprender outro conjunto de habilidades
A nuvem veio para ficar. Eu uso o BigQuery para meus dados estruturados muito grandes. A maioria dos modelos grandes não pode ser construída em seu laptop
Os computadores são monolíngues. Eles só falam números. Quando você passa dados para seu modelo, você está passando um conjunto de dados numéricos altamente estruturado e bem depurado

Eu realmente gosto do uso da visualização por Vinita. A descrição percentual de cada tarefa de ciência de dados é útil e esclarecedora. Vinita também contou com sua experiência para explicar o trabalho passo a passo que um cientista de dados faz. É uma resposta de leitura obrigatória!!

Contrário à crença popular, a ciência de dados não é só glamour. Os resultados da pesquisa CrowdFlower a seguir resumem com precisão um dia típico para um cientista de dados:

Há muito retrocesso envolvido. As vezes, Você ainda precisa ser capaz de prever quais consequências a exclusão poderia ter / agregar una variávelEm estatística e matemática, uma "variável" é um símbolo que representa um valor que pode mudar ou variar. Existem diferentes tipos de variáveis, e qualitativo, que descrevem características não numéricas, e quantitativo, representando quantidades numéricas. Variáveis são fundamentais em experimentos e estudos, uma vez que permitem a análise de relações e padrões entre diferentes elementos, facilitando a compreensão de fenômenos complexos.....

Coleta de conjuntos de dados: Os dados são a força vital da ciência de dados, então passamos muito tempo selecionando-os. Em raras ocasiões, alguns projetos podem já ter muitos dados
Limpeza e organização de dados: Esta é a etapa mais longa e crucial de todo o procedimento.. Tem um grande impacto nos resultados financeiros. Em geral, depois dessa etapa, a grande quantidade de dados é reduzida, por lo que es factible que necesitemos compilar más datos para un TreinamentoO treinamento é um processo sistemático projetado para melhorar as habilidades, Conhecimento ou habilidades físicas. É aplicado em várias áreas, como esporte, Educação e desenvolvimento profissional. Um programa de treinamento eficaz inclui planejamento de metas, prática regular e avaliação do progresso. A adaptação às necessidades individuais e a motivação são fatores-chave para alcançar resultados bem-sucedidos e sustentáveis em qualquer disciplina.... efectivo.
Processamento de dados: É a prática de examinar grandes bancos de dados pré-existentes para gerar novas informações. Uma vez que os dados são organizados e armazenados em bancos de dados, em suma, podemos começar a obter valor deles encontrando padrões nos dados.
Crie conjuntos de treinamento e conjuntos de teste: Assim que tivermos uma quantidade decente de dados, temos que dividi-lo em conjunto de treinamento e conjunto de teste. Um conjunto de treinamento é um conjunto de dados usado para descobrir relacionamentos potencialmente preditivos. Contém todas as informações sobre a saída esperada. Um conjunto de teste é um conjunto de dados usado para examinar a força e a utilidade de uma ligação preditiva.. Contém variáveis mistas
Refinamento de algoritmos: Começamos com um algoritmo esquelético. É muito básico e estabelece aproximadamente o resultado esperado. Depois de algumas sessões, a precisão é registrada, precisão, etc. e o algoritmo é refinado para maximizar sua eficiência.

Esta é uma resposta excelente e identificável. Observe que o aprendizado de máquina, o aspecto mais esperado do trabalho de um cientista de dados, apenas ocupe o 5% do tempo total. Da mesma forma que Vinita, você também explicou suas tarefas em termos de porcentagem. Aqui está a opinião do Justin:

Tarefas associadas a PNL (15%). Não é de se admirar que a tecnologia de correção automática do PaperRater exija o uso intenso de analisadores., taggers, expressões regulares e outras vantagens da PNL como parte dos algoritmos principais e módulos de feedback.
Aprendizado de máquina (5%). Esta é geralmente a parte mais agradável. Limpeza de dados, Extração / Engenharia / seleção de recursos e construção do modelo
Relatórios e análises (10%). Executar consultas, analise a revisão e ajude na tomada de decisões estratégicas
Gestão de dados (5%). Configurar e gerenciar servidores de banco de dados, incluindo MySQL, Redis y MongoDB. Projetos maiores podem exigir Hadoop ou Spark
Desenvolvimento geral de software (40%). Muitos cientistas de dados têm formação em ciência da computação, então espere colaborar se você tiver experiência adequada. Integração API, desenvolvimento web e em qualquer outro lugar onde você possa agregar valor. Mesmo em uma inicialização de IA, a maior parte do desenvolvimento não envolverá IA
De outros (25%). Isso inclui uma grande variedade de tarefas, incluindo postagens de blog, marketing, administração, documentação técnica, suporte técnico, cópia do portal web, E-mails, Encontros, etc.

O autor, Tim Kiely, usar um diagrama de Venn para explicar o que é ciência de dados. Basta dar uma olhada neste diagrama de Venn abaixo: vai explodir sua mente. Tim fala mais sobre o que os cientistas de dados deveriam ser, tendo uma visão um tanto contraditória da definição geral.. Aqui está a solução de Tim:

o “Cientista de Dados” é um pouco um mito, na minha opinião. Isso não significa que eles não estão lá fora, mas eles são muito mais raros do que se pensa popularmente e são mais a exceção do que a regra.

Eu comparo com o título de “Web Master” da bolha dotcom: essas chamadas pessoas que podiam fazer programação completa, desenvolvimento front-end, marketing, tudo. Todos esses papéis / habilidades sempre foram especializadas e permanecem até hoje.

"Cientistas de dados" deveriam ser arquitetos de banco de dados, compreender computação distribuída, ter conhecimento profundo de estatísticas E alguma área de negócios ou experiência no campo. Isso é pedir muito quando qualquer um desses conjuntos de habilidades pode exigir uma carreira para ser construído..

Os cientistas de dados com quem trabalhei geralmente têm um Ph.D.. em inteligência artificial ou aprendizado de máquina e são comunicadores eficazes, o que lhes dá a capacidade de direcionar analistas, DevOps pessoal, Desenvolvedores e administradores de banco de dados disponíveis para solucionar problemas com soluções baseadas em dados. Eles descrevem a resposta desejada e permitem que suas equipes preencham as lacunas.

Vamos mergulhar em uma especialização específica de aprendizado de máquina. Um dos meus favoritos – Processamento de linguagem natural (PNL)! Eu queria trazer a opinião de um engenheiro de aprendizado de máquina aqui (uma função com a qual todo cientista de dados deve estar familiarizado). Veja a solução completa de Evan:

Hoje trabalhando em PNL, em geral, incluindo classificação de intenção e extração de entidade. Este é um dia típico para mim:

vá trabalhar, abra o GitHub e verifique o painel do ZenHub (algo como Jira, exceto que é muito mais legal). Tive alguns modelos que estavam treinando ontem à noite em nossos servidores e deveria ter recebido um e-mail informando que eles terminaram. Eu fiz!
Probablemente pasaré unos minutos probando esos nuevos modelos y posteriormente ajustaré algunos parametroso "parametros" são variáveis ou critérios usados para definir, medir ou avaliar um fenômeno ou sistema. Em vários domínios, como a estatística, Ciência da Computação e Pesquisa Científica, Os parâmetros são essenciais para estabelecer normas e padrões que orientam a análise e interpretação dos dados. Sua seleção e manuseio adequados são cruciais para obter resultados precisos e relevantes em qualquer estudo ou projeto...., mais tarde irei reiniciar o procedimento de treinamento
No resto do dia, costumo estar programando, trabalhando em um aplicativo Python de back-end que fornecerá a inteligência artificial para um de nossos produtos, ou implementar um novo algoritmo que desejo testar.
Como um exemplo, Recentemente li uma postagem sobre recozimento simulado encaixado (CSA) e queria tentar ajustar os parâmetros para XGBoost como uma alternativa para uma pesquisa de grade. CSA é uma forma generalizada de recozimento simulado (PARA), que é um algoritmo para tirar o máximo proveito de uma função que não usa nenhuma informação sobre a derivada da função.
Infelizmente, Não consegui encontrar uma implementação em Python, portanto, decidi escrever meu próprio. Dois dias depois, Eu havia enviado meu primeiro pacote para PyPI!

Notas finais

O papel do cientista de dados é verdadeiramente multifacetado, não é assim? MUITOS aspirantes a cientistas de dados presumem que construirão principalmente modelos 24 horas por dia, Mas esse não é o caso.

Existem todos os tipos de tarefas envolvidas em um projeto típico de ciência de dados em que você trabalhará diariamente. Gosto bastante porque abre caminhos para aprender novos conceitos e aplicá-los no mundo real.

Vou postar mais algumas postagens relacionadas à carreira no DataPeaker, Portanto, fique atento e continue aprendendo!

Relacionado

Postagens recentes

homem-gravação-estúdio-música-produção-1

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.

O que um cientista de dados faz diariamente?

Conteúdo

Visão geral

Introdução

Notas finais

Relacionado

Postagens recentes

Inteligência Artificial em Vídeo: Como as novas tecnologias estão mudando a produção de vídeo?

Perfis de TI que você deve considerar

Como gravar uma tela no computador Windows?

¿Você conhece os níveis de antiguidade?

Encontre aqui os seus melhores anéis deslizantes e juntas rotativas

Agência de Positação: Vantagens do link building para uma loja online

Assine a nossa newsletter

Jogos

Marcas

O negócio

línguas

O que um cientista de dados faz diariamente?

Conteúdo

Visão geral

Introdução

Notas finais

Relacionado

Postagens Relacionadas:

Postagens recentes

Inteligência Artificial em Vídeo: Como as novas tecnologias estão mudando a produção de vídeo?

Perfis de TI que você deve considerar

Como gravar uma tela no computador Windows?

¿Você conhece os níveis de antiguidade?

Encontre aqui os seus melhores anéis deslizantes e juntas rotativas

Agência de Positação: Vantagens do link building para uma loja online

Assine a nossa newsletter

Jogos

Marcas

O negócio

línguas