Que fait un data scientist au quotidien?

Vue d'ensemble

Que fait un data scientist au quotidien? Une question populaire et essentielle
Nous examinons cette question du point de vue d'un scientifique des données à travers le prisme de 5 Des réponses détaillées et perspicaces de data scientists chevronnés.

introduction

je suis de nature curieuse. Chaque fois que je tombe sur un concept dont je n'ai jamais entendu parler avant, J'ai hâte de creuser plus profondément et de découvrir comment cela fonctionne. Cela m'a été très utile Science des données voyage.

Mais avant d'avoir ma première chance à la science des données, J'ai toujours été curieux de savoir ce que faisaient les data scientists au quotidien. Étais-je censé construire des modèles tout le temps? Ou est-ce que le dicton souvent cité sur le passage de 70 Al 80% de notre temps, le nettoyage des données était vraiment vrai?

Je suis sûr que vous vous êtes aussi demandé (ou du moins tu te demandais) à ce sujet. Le rôle d'un data scientist pourrait être de “le métier le plus sexy du 21ème siècle”, mais qu'est-ce que cela implique au quotidien?

J'ai décidé d'enquêter sur ce. Je voulais élargir mes horizons et comprendre comment les data scientists voient leur rôle dans différents domaines (comme la PNL). Cela m'a aidé à mieux comprendre notre rôle et pourquoi nous devrions toujours lire des perspectives différentes en matière de science des données..

Ensuite, voici une liste des 5 les meilleures réponses pour vous aider à vous faire une idée de ce qu'est une routine type de data scientist. Préparez-vous à être surpris: La modélisation n'est pas la fonction principale (et seulement) dans les tâches quotidiennes d'un data scientist!

Je vous encourage également à participer à une discussion sur cette question ici. Cela enrichira votre compréhension actuelle de ce que fait un data scientist et vos réflexions favoriseront une discussion au sein de notre communauté !!

Noter: J'ai pris les réponses textuellement de Quora et j'ai ajouté mes réflexions au début de chaque réponse. Cela vous aidera à avoir une bonne perspective sur ce que couvre la solution sans diluer les pensées de l'auteur.. Prendre plaisir!

J'aime cette réponse parce qu'elle est nette, simple et direct. L'auteur a même conçu un organigramme et expliqué sa démarche de réflexion d'une manière merveilleusement illustrée.. Voici votre réponse complète:

L'apprentissage automatique est très orienté processus. Pour cela, Je suis toujours quelque part dans l'une des images ci-dessous:

Les ingénieurs en machine learning passent beaucoup de temps sur les deux premières images (o étapes). La partie amusante est vraiment dans la troisième étape, mais ce n'est qu'une petite partie de ce qui se passe dans le monde réel.

Quelques éléments clés auxquels prêter attention à propos de la science des données dans le monde réel:

Presque tout l'apprentissage automatique appliqué est supervisé. Cela signifie que nous construisons des modèles sur des ensembles de données structurées.
Les conflits de données sont une grande partie de ce qui se passe dans le monde réel
Quand tu entends le mot supervisé, penser classification et régression. La plupart de mes modèles sont des problèmes de tri.
La construction de modèles est approximativement la 20% de mon travail. Oui, c'est tout!
De nombreuses petites et moyennes entreprises n'utilisent pas du tout le deep learning. Parce que? Parce que les algorithmes de données structurées comme XGBoost gagnent toujours
Tout ce que je fais est programmatique
La plupart des données du monde réel résident dans des bases de données relationnelles. Ce sera votre travail de créer des requêtes pour extraire les données dont vous avez besoin
Les mégadonnées sont des données non structurées. Si vous devez construire vos modèles contre le Big Data, vous devrez acquérir un autre ensemble de compétences
Le cloud est là pour rester. J'utilise BigQuery pour mes données structurées très volumineuses. La plupart des grands modèles ne peuvent pas être construits sur votre ordinateur portable
Les ordinateurs sont monolingues. Ils ne parlent que des chiffres. Lorsque vous transmettez des données à votre modèle, vous transmettez un ensemble de données numériques hautement structuré et bien débogué

J'aime beaucoup l'utilisation de la visualisation par Vinita. La description en pourcentage de chaque tâche de science des données est utile et perspicace. Vinita s'est également appuyée sur son expérience pour expliquer le travail étape par étape d'un data scientist. C'est une réponse à lire absolument !!

Contrairement aux croyances populaires, la science des données n'est pas que glamour. Les résultats de l'enquête CrowdFlower suivants résument avec précision une journée type pour un data scientist:

Il y a beaucoup de retour en arrière impliqué. Parfois, Vous devez même être en mesure de prévoir les conséquences que la suppression pourrait avoir / ajouter une variable.

Collecte d'ensembles de données: Les données sont la pierre angulaire de la science des données, nous passons donc beaucoup de temps à les sélectionner. En de rares occasions, certains projets peuvent déjà avoir beaucoup de données
Nettoyer et organiser les données: C'est l'étape la plus longue et la plus cruciale de toute la procédure.. A un grand impact sur le résultat. Comme d'habitude, après cette étape, la grande quantité de données est réduite, il est donc possible que nous ayons besoin de compiler plus de données pour une formation efficace.
Traitement de l'information: C'est la pratique d'examiner de grandes bases de données préexistantes pour générer de nouvelles informations. Une fois les données organisées et stockées dans des bases de données, en bref, nous pouvons commencer à en tirer profit en trouvant des modèles dans les données.
Créer des ensembles d'entraînement et des ensembles de test: Une fois que nous avons une quantité décente de données, nous devons le diviser en un ensemble d'entraînement et un ensemble de test. Un ensemble d'apprentissage est un ensemble de données utilisé pour découvrir des relations potentiellement prédictives. Contient toutes les informations sur le résultat attendu. Un ensemble de tests est un ensemble de données utilisé pour examiner la force et l'utilité d'un couplage prédictif.. Contient des variables mixtes
Raffinement des algorithmes: Commençons par un algorithme squelettique. Il est très basique et établit approximativement quel résultat est attendu. Après quelques séances, la précision est enregistrée, précision, etc. et l'algorithme est affiné pour maximiser son efficacité.

C'est une réponse excellente et pertinente. Notez que l'apprentissage automatique, l'aspect le plus attendu du travail d'un data scientist, juste occuper le 5% du temps total. De la même manière que Vinita, vous avez également expliqué vos tâches en termes de pourcentage. Voici l'avis de Justin:

Tâches associées à la PNL (15%). Il n'est pas étonnant que la technologie de correction automatique de PaperRater nécessite une utilisation intensive des analyseurs., tagueurs, expressions régulières et autres avantages de la PNL dans le cadre des algorithmes de base et des modules de rétroaction.
Apprentissage automatique (5%). C'est généralement la partie la plus agréable. Nettoyage des données, extraction / ingénierie / sélection des caractéristiques et construction du modèle
Rapports et analyses (10%). Exécuter des requêtes, revoir l'analyse et aider à la prise de décision stratégique
Gestion de données (5%). Configurer et gérer les serveurs de bases de données, y compris MySQL, Redis y MongoDB. Les projets plus importants peuvent nécessiter Hadoop ou Spark
Développement de logiciels généraux (40%). De nombreux data scientists ont une formation en informatique, alors attendez-vous à collaborer si vous avez une expérience adéquate. Intégration API, développement Web et partout où vous pouvez ajouter de la valeur. Même dans une startup d'IA, l'essentiel du développement n'impliquera pas l'IA
Autre (25%). Cela comprend une grande variété de tâches, y compris les articles de blog, commercialisation, la gestion, documentation technique, support technique, copie du portail web, courriers électroniques, réunions, etc.

L'auteur, Tim Kiely, utiliser un diagramme de Venn pour expliquer ce qu'est la science des données. Jetez un œil à ce diagramme de Venn ci-dessous: va souffler votre esprit. Tim parle en outre de ce que les scientifiques des données sont censés être en adoptant une vision quelque peu contradictoire de la définition générale.. Voici la solution de Tim:

Le “Scientifique des données” c'est un peu un mythe, À mon avis. Cela ne veut pas dire qu'ils ne sont pas là-bas, mais ils sont beaucoup plus rares qu'on ne le croit généralement et sont plus l'exception que la règle.

Je le compare au titre de “Webmestre” de la bulle dotcom: ces soi-disant gens qui pouvaient faire de la programmation complète, développement front-end, commercialisation, tout. Tous ces rôles / les compétences ont toujours été spécialisées et le restent aujourd'hui.

Les « data scientists » sont censés être des architectes de bases de données, comprendre l'informatique distribuée, avoir une connaissance approfondie des statistiques ET un certain domaine d'activité ou une expérience dans le domaine. C'est beaucoup demander quand n'importe lequel de ces ensembles de compétences peut prendre une carrière à construire..

Les data scientists avec qui j'ai travaillé ont généralement un doctorat.. en intelligence artificielle ou en apprentissage automatique et sont des communicateurs efficaces, ce qui leur donne la possibilité de diriger les analystes, Personnes DevOps, Développeurs et administrateurs de bases de données disponibles pour résoudre les problèmes avec des solutions basées sur les données. Ils décrivent la réponse souhaitée et laissent leurs équipes combler les lacunes.

Plongeons-nous dans une spécialisation particulière en apprentissage automatique. Un de mes préférés – Traitement du langage naturel (PNL)! Je voulais faire ressortir ici l'avis d'un ingénieur en machine learning (un rôle que tout scientifique des données devrait connaître). Voir la solution complète d'Evan:

Aujourd'hui en PNL, pour la plupart, y compris la classification des intentions et l'extraction d'entités. C'est une journée type pour moi:

Mets-toi au travail, ouvrez GitHub et vérifiez le tableau de bord ZenHub (quelque chose comme Jira, sauf qu'il fait bien plus frais). J'ai eu quelques modèles qui s'entraînaient hier soir sur nos serveurs et j'aurais dû recevoir un email indiquant qu'ils ont terminé. J'ai fait!
Je vais probablement passer quelques minutes à tester ces nouveaux modèles, puis à ajuster certains paramètres, plus tard, je recommencerai la procédure d'entraînement
Le reste de la journée j'ai tendance à coder, soit travailler sur une application Python back-end qui fournira l'intelligence artificielle pour l'un de nos produits, ou implémenter un nouvel algorithme que je veux tester.
Par exemple, J'ai récemment lu un article sur le recuit simulé ancré (ASC) et je voulais l'essayer pour ajuster les paramètres de XGBoost comme alternative à une recherche par grille. CSA est une forme généralisée de recuit simulé (À), qui est un algorithme pour tirer pleinement parti d'une fonction qui n'utilise aucune information sur la dérivée de la fonction.
Malheureusement, Je n'ai pas trouvé d'implémentation en Python, donc j'ai décidé d'écrire le mien. Deux jours après, J'avais envoyé mon premier colis à PyPI!

Remarques finales

Le rôle du data scientist est vraiment multiforme, ce n'est pas comme ça? BEAUCOUP de scientifiques en herbe supposent qu'ils construiront principalement des modèles 24 heures sur 24, Mais ce n'est pas le cas.

Il y a toutes sortes de tâches impliquées dans un projet typique de science des données sur lesquelles vous vous retrouverez à travailler au jour le jour.. Je l'aime assez parce qu'il ouvre des moyens d'apprendre de nouveaux concepts et de les appliquer dans le monde réel.

Je publierai d'autres articles liés à la carrière sur DataPeaker, Alors restez à l'écoute et continuez à apprendre!