Cosa fa ogni giorno un data scientist?

Contenuti

Panoramica

  • Cosa fa ogni giorno un data scientist? Una domanda popolare ed essenziale
  • Guardiamo a questa domanda dal punto di vista di uno scienziato dei dati attraverso la lente di 5 Risposte dettagliate e approfondite di esperti data scientist.

introduzione

Sono una persona curiosa per natura. Ogni volta che mi imbatto in un concetto di cui non avevo mai sentito parlare prima, non vedo l'ora di approfondire e scoprire come funziona. Questo è stato molto utile da solo Scienza dei dati viaggio.

Ma prima di fare il mio primo tentativo con la scienza dei dati, Ero sempre curioso di sapere cosa facevano i data scientist ogni giorno. Dovevo solo costruire modelli tutto il tempo? O è il detto spesso citato sul passaggio da 70 al 80% dei nostri tempi i dati sulla pulizia erano davvero veri?

Sono sicuro che te lo sei chiesto anche tu (o almeno te lo sei chiesto) a questo proposito. Il ruolo di un data scientist potrebbe essere quello di “il lavoro più sexy del 21° secolo”, ma cosa implica questo giorno per giorno??

cosa fa uno scienziato dei dati?

Ho deciso di indagare su questo. Volevo espandere i miei orizzonti e capire come i data scientist vedono il loro ruolo in diversi domini (come la PNL). Questo mi ha aiutato a capire meglio il nostro ruolo e perché dovremmo sempre leggere prospettive diverse quando si tratta di data science..

Quindi, ecco un elenco dei 5 le migliori risposte per aiutarti a farti un'idea di cosa sia una tipica routine di data scientist. Preparati a essere stupito: La modellazione non è la funzione principale (e solo) nei compiti quotidiani di un data scientist!

Vi incoraggio anche a partecipare a a discussione su questa domanda qui. Ciò arricchirà la tua attuale comprensione di ciò che fa uno scienziato dei dati e i tuoi pensieri favoriranno una discussione tra la nostra comunità!!

Nota: Ho preso le risposte alla lettera da Quora e ho aggiunto i miei pensieri all'inizio di ogni risposta. Questo ti aiuterà a ottenere una buona prospettiva su ciò che copre la soluzione senza diluire i pensieri dell'autore.. Godere!

Mi piace questa risposta perché è tagliente, diretto e semplice. L'autore ha persino progettato un diagramma di flusso e spiegato la sua procedura di pensiero in un modo meravigliosamente illustrato.. Ecco la tua risposta completa:

L'apprendimento automatico è molto orientato al processo. Perché, Sono sempre da qualche parte in una delle immagini qui sotto:data_scientist_role

Gli ingegneri dell'apprendimento automatico dedicano molto tempo alle prime due immagini (o stadi). La parte divertente è davvero nella terza fase, ma è solo una piccola parte di ciò che accade nel mondo reale.

Alcune cose chiave a cui prestare attenzione sulla scienza dei dati nel mondo reale:

  1. Quasi tutto l'apprendimento automatico applicato è supervisionato. Ciò significa che costruiamo modelli rispetto a set di dati strutturati.
  2. Le controversie sui dati sono una parte importante di ciò che accade nel mondo reale
  3. Quando senti la parola supervisionato, pensa alla classificazione e alla regressione. La maggior parte dei miei modelli ha problemi di ordinamento.
  4. La costruzione del modello è di circa il 20% del mio lavoro. sì, questo è tutto!
  5. Molte piccole e medie imprese non utilizzano affatto il deep learning. Come mai? Perché gli algoritmi di dati strutturati come XGBoost vincono sempre
  6. Tutto quello che faccio è programmatico
  7. La maggior parte dei dati del mondo reale risiede in database relazionali. Sarà tuo compito creare query per estrarre i dati di cui hai bisogno
  8. I big data sono dati non strutturati. Se devi costruire i tuoi modelli contro i big data, dovrai imparare un'altra serie di abilità
  9. Il cloud è qui per restare. Utilizzo BigQuery per i miei dati strutturati di grandi dimensioni. La maggior parte dei modelli di grandi dimensioni non può essere costruita sul tuo laptop
  10. I computer sono monolingue. Parlano solo numeri. Quando passi i dati al tuo modello, stai passando un set di dati numerici altamente strutturato e ben debuggato

Mi piace molto l'uso della visualizzazione di Vinita. La descrizione percentuale di ogni attività di data science è utile e perspicace. Vinita ha anche fatto affidamento sulla sua esperienza per spiegare passo dopo passo il lavoro di un data scientist. È una risposta da leggere!!

Contrariamente alle credenze popolari, la scienza dei dati non è solo glamour. I seguenti risultati del sondaggio CrowdFlower riassumono accuratamente una giornata tipo per un data scientist:

data_scientist_role

C'è un sacco di backtracking coinvolto. Qualche volta, Devi anche essere in grado di prevedere quali conseguenze potrebbe avere l'eliminazione / aggiungi una variabile.

  • Raccolta di set di dati: I dati sono la linfa vitale della scienza dei dati, quindi passiamo molto tempo a selezionarli. In rare occasioni, alcuni progetti potrebbero già avere molti dati
  • Pulizia e organizzazione dei dati: Questo è il passaggio più lungo e cruciale dell'intera procedura.. Ha un grande impatto sui profitti. Generalmente, dopo questo passaggio, la grande quantità di dati è ridotta, quindi è possibile che abbiamo bisogno di raccogliere più dati per un allenamento efficace.
  • Elaborazione dati: È la pratica di esaminare grandi database preesistenti per generare nuove informazioni. Una volta che i dati sono organizzati e archiviati in database, in breve possiamo iniziare a trarne valore trovando modelli all'interno dei dati.
  • Crea set di allenamento e set di test: Una volta che abbiamo una discreta quantità di dati, dobbiamo dividerlo in training set e test set. Un training set è un insieme di dati che viene utilizzato per scoprire relazioni potenzialmente predittive. Contiene tutte le informazioni sull'output previsto. Un set di test è un insieme di dati che viene utilizzato per esaminare la forza e l'utilità di un collegamento predittivo.. Contiene variabili miste
  • Affinamento degli algoritmi: Iniziamo con un algoritmo scheletrico. È molto semplice e stabilisce approssimativamente quale risultato ci si aspetta. Dopo alcune sessioni, la precisione è registrata, precisione, eccetera. e l'algoritmo viene perfezionato per massimizzarne l'efficienza.

Questa è una risposta eccellente e comprensibile. Tieni presente che l'apprendimento automatico, l'aspetto più atteso del lavoro di un data scientist, occupa solo il 5% del tempo totale. Nello stesso modo in cui Vinita, hai anche spiegato i tuoi compiti in termini di percentuale. Ecco l'opinione di Justin:

  • Compiti associati alla PNL (15%). Non c'è da meravigliarsi se la tecnologia di correzione automatica di PaperRater richiede un uso intensivo di parser., taggatori, espressioni regolari e altri vantaggi della PNL come parte di algoritmi di base e moduli di feedback.
  • Apprendimento automatico (5%). Questa di solito è la parte più divertente. Pulizia dei dati, estrazione / ingegneria / selezione delle caratteristiche e costruzione del modello
  • Rapporti e analisi (10%). Esegui query, rivedere l'analisi e aiutare con il processo decisionale strategico
  • Gestione dati (5%). Configura e gestisci i server di database, incluso MySQL, Redis e MongoDB. I progetti più grandi potrebbero richiedere Hadoop o Spark
  • Sviluppo software generale (40%). Molti data scientist hanno un background in informatica, quindi aspettati di collaborare se hai un'esperienza adeguata. Integrazione API, sviluppo web e ovunque tu possa aggiungere valore. Anche in una startup AI, la maggior parte dello sviluppo non coinvolgerà l'IA
  • Altro (25%). Ciò include un'ampia varietà di compiti, compresi i post del blog, marketing, amministrazione, Documentazione tecnica, supporto tecnico, copia del portale web, email, incontri, eccetera.

L'autore, Tim Kiely, usa un diagramma di Venn per spiegare cos'è la scienza dei dati. Dai un'occhiata a questo diagramma di Venn qui sotto: ti lascerà a bocca aperta. Tim parla ulteriormente di cosa dovrebbero essere i data scientist assumendo una visione un po' contraddittoria della definizione generale.. Ecco la soluzione di Tim:

Il “Scienziato dei dati” è un po' un mito, secondo me. Non significa che non siano là fuori, ma sono molto più rari di quanto comunemente si intenda e sono più l'eccezione che la regola.

Lo paragono al titolo di “Web Master” dalla bolla delle dotcom: queste cosiddette persone che potrebbero fare una programmazione completa, sviluppo front-end, marketing, Tutto quanto. Tutti quei ruoli / le competenze sono sempre state specializzate e lo sono ancora oggi.

Gli "scienziati dei dati" dovrebbero essere architetti di database, capire il calcolo distribuito, avere una conoscenza approfondita delle statistiche E di alcune aree aziendali o esperienza nel campo. È chiedere molto quando uno di questi set di abilità può richiedere una carriera per costruire..

data_scientist_role


I data scientist con cui ho lavorato di solito hanno un dottorato di ricerca.. nell'intelligenza artificiale o nell'apprendimento automatico e sono comunicatori efficaci, che dà loro la capacità di dirigere gli analisti, Persone DevOps, Sviluppatori e amministratori di database a disposizione per la risoluzione dei problemi con soluzioni basate sui dati. Descrivono la risposta desiderata e lasciano che i loro team colmino le lacune.

Immergiamoci in una particolare specializzazione di machine learning. Uno dei miei preferiti – Elaborazione del linguaggio naturale (PNL)! Volevo far emergere l'opinione di un ingegnere di machine learning qui (un ruolo che ogni data scientist dovrebbe conoscere). Vedi la soluzione completa di Evan:

Oggi lavoro in PNL, per la maggior parte, inclusa la classificazione degli intenti e l'estrazione delle entità. Questa è una giornata tipo per me:

  • andare al lavoro, apri GitHub e controlla la dashboard di ZenHub (qualcosa come Jira, tranne che è molto più bello). Ho avuto alcuni modelli che si stavano allenando la scorsa notte sui nostri server e avrei dovuto ricevere un'e-mail che affermava che avevano finito. L'ho fatto!
  • Probabilmente passerò qualche minuto a testare quei nuovi modelli e poi a regolare alcuni parametri, in seguito ricomincerò la procedura di addestramento
  • Il resto della giornata tendo a programmare, o lavorando su un'applicazione Python di back-end che fornirà l'intelligenza artificiale per uno dei nostri prodotti, o implementando un nuovo algoritmo che voglio testare.
  • Come esempio, Di recente ho letto un post sulla ricottura simulata ancorata (CSA) e volevo provarlo per regolare i parametri per XGBoost come alternativa alla ricerca nella griglia. CSA è una forma generalizzata di ricottura simulata (A), che è un algoritmo per sfruttare appieno una funzione che non utilizza alcuna informazione sulla derivata della funzione.
  • Sfortunatamente, Non sono riuscito a trovare un'implementazione in Python, quindi ho deciso di scrivere il mio. Due giorni dopo, Avevo inviato il mio primo pacco a PyPI!

Note finali

Il ruolo del data scientist è davvero multiforme, Non è così? MOLTI aspiranti scienziati dei dati presumono che costruiranno principalmente modelli 24 ore su 24, Ma non è così.

Ci sono tutti i tipi di attività coinvolte in un tipico progetto di data science su cui ti ritroverai a lavorare di giorno in giorno. Mi piace abbastanza perché apre modi per apprendere nuovi concetti e applicarli nel mondo reale.

Pubblicherò altri post relativi alla carriera su DataPeaker, Quindi resta sintonizzato e continua ad imparare!

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.