Was macht ein Data Scientist täglich?

Inhalt

Überblick

  • Was macht ein Data Scientist täglich? Eine beliebte und wesentliche Frage
  • Wir betrachten diese Frage aus der Perspektive eines Data Scientists durch die Linse von 5 Detaillierte und aufschlussreiche Antworten von erfahrenen Datenwissenschaftlern.

Einführung

Ich bin von Natur aus ein neugieriger Mensch. Jedes Mal, wenn ich auf ein Konzept stoße, von dem ich noch nie gehört habe, Ich kann es kaum erwarten, tiefer zu graben und herauszufinden, wie es funktioniert. Das war für mich ganz nützlich Datenwissenschaft Reise.

Aber bevor ich meine erste Chance auf Data Science bekomme, Ich war schon immer neugierig, was Data Scientists jeden Tag machen. Sollte ich die ganze Zeit nur Modelle bauen? Oder ist das oft zitierte Sprichwort über den Umzug von 70 al 80% unserer Zeit waren die Reinigungsdaten wirklich wahr?

Das hast du dich sicher auch gefragt (oder hast du dich zumindest gefragt) darüber. Die Rolle eines Datenwissenschaftlers könnte darin bestehen, “sexiest job des 21. Jahrhunderts”, aber was bedeutet das im alltag?

was macht ein datenwissenschaftler

Ich beschloss, das zu untersuchen. Ich wollte meinen Horizont erweitern und verstehen, wie Data Scientists ihre Rolle in verschiedenen Domänen sehen (wie NLP). Dies hat mir geholfen, unsere Rolle besser zu verstehen und warum wir immer unterschiedliche Perspektiven in Bezug auf Data Science lesen sollten..

Dann, hier ist eine liste der 5 Top-Antworten, die Ihnen helfen, eine Vorstellung davon zu bekommen, was eine typische Data Scientist-Routine ist. Lassen Sie sich überraschen: Modellieren ist nicht die Hauptfunktion (und nur) in den täglichen Aufgaben eines Data Scientists!

Ich ermutige Sie auch, an einem teilzunehmen Diskussion zu dieser Frage hier. Dies wird Ihr derzeitiges Verständnis davon bereichern, was ein Data Scientist tut, und Ihre Gedanken werden eine Diskussion in unserer Community fördern!!

Notiz: Ich habe die Antworten wörtlich von Quora übernommen und meine Gedanken am Anfang jeder Antwort hinzugefügt. Dies wird Ihnen helfen, einen guten Überblick darüber zu bekommen, was die Lösung abdeckt, ohne die Gedanken des Autors zu verwässern.. Genießen!

Ich mag diese Antwort, weil sie scharf ist, unkompliziert und einfach. Der Autor hat sogar ein Flussdiagramm entworfen und seine Denkweise wunderbar bebildert erklärt.. Hier ist Ihre vollständige Antwort:

Machine Learning ist sehr prozessorientiert. Deswegen, Ich bin immer irgendwo in einem der Bilder unten:data_scientist_role

Ingenieure für maschinelles Lernen verbringen viel Zeit mit den ersten beiden Bildern (o Etappen). Der lustige Teil ist wirklich in der dritten Phase, Aber es ist nur ein kleiner Teil dessen, was in der realen Welt passiert.

Einige wichtige Dinge, auf die Sie bei Data Science in der realen Welt achten sollten:

  1. Fast das gesamte angewandte maschinelle Lernen wird überwacht. Das heißt, wir bauen Modelle gegen strukturierte Datensätze.
  2. Datenstreitigkeiten sind ein großer Teil dessen, was in der realen Welt passiert
  3. Wenn du das Wort beaufsichtigt hörst, Klassifikation und Regression denken. Die meisten meiner Modelle haben Sortierprobleme.
  4. Modellbau ist ungefähr der 20% meiner Arbeit. Jawohl, das ist alles!
  5. Viele kleine und mittelständische Unternehmen nutzen Deep Learning gar nicht. Warum? Weil strukturierte Datenalgorithmen wie XGBoost immer gewinnen
  6. Alles was ich tue ist programmatisch
  7. Die meisten Daten aus der realen Welt befinden sich in relationalen Datenbanken. Es wird Ihre Aufgabe sein, Abfragen zu erstellen, um die benötigten Daten zu extrahieren
  8. Big Data sind unstrukturierte Daten. Wenn Sie Ihre Modelle gegen Big Data erstellen müssen, Sie müssen eine andere Reihe von Fähigkeiten erlernen
  9. Die Cloud ist hier, um zu bleiben. Ich verwende BigQuery für meine wirklich großen strukturierten Daten. Die meisten großen Modelle können nicht auf Ihrem Laptop gebaut werden
  10. Computer sind einsprachig. Sie sprechen nur Zahlen. Wenn Sie Daten an Ihr Modell übergeben, Sie übergeben einen hochstrukturierten und gut debuggten numerischen Datensatz

Ich mag Vinitas Verwendung von Visualisierungen sehr. Die prozentuale Beschreibung jeder Data-Science-Aufgabe ist hilfreich und aufschlussreich. Vinita hat sich auch auf ihre Erfahrung verlassen, um die Schritt-für-Schritt-Arbeit eines Datenwissenschaftlers zu erklären. Es ist eine unverzichtbare Antwort!!

Entgegen der landläufigen Meinung, Data Science ist nicht nur Glamour. Die folgenden CrowdFlower-Umfrageergebnisse fassen einen typischen Tag für einen Datenwissenschaftler genau zusammen:

data_scientist_role

Es gibt eine Menge Backtracking. Manchmal, Sie müssen sogar vorhersagen können, welche Folgen das Löschen haben könnte / füge eine Variable hinzu.

  • Sammlung von Datensätzen: Daten sind das Lebenselixier der Datenwissenschaft, Also verbringen wir viel Zeit damit, sie auszuwählen. Selten, Einige Projekte haben möglicherweise bereits viele Daten
  • Daten bereinigen und organisieren: Dies ist der längste und wichtigste Schritt des gesamten Verfahrens.. Hat einen großen Einfluss auf das Endergebnis. Wie gewöhnlich, nach diesem schritt, die große Datenmenge wird reduziert, Daher ist es möglich, dass wir mehr Daten für ein effektives Training zusammenstellen müssen.
  • Datenverarbeitung: Es ist die Praxis, große, bereits vorhandene Datenbanken zu untersuchen, um neue Informationen zu generieren. Sobald die Daten organisiert und in Datenbanken gespeichert sind, Kurz gesagt, wir können beginnen, Wert aus ihnen zu ziehen, indem wir Muster in den Daten finden.
  • Trainingssets und Testsets erstellen: Sobald wir eine anständige Datenmenge haben, wir müssen es in Trainingsset und Testset aufteilen. Ein Trainingssatz ist ein Datensatz, der verwendet wird, um potenziell prädiktive Beziehungen zu entdecken. Enthält alle Informationen über die erwartete Ausgabe. Ein Testsatz ist ein Datensatz, der verwendet wird, um die Stärke und Nützlichkeit einer prädiktiven Verknüpfung zu untersuchen.. Enthält gemischte Variablen
  • Verfeinerung von Algorithmen: Wir beginnen mit einem Skelettalgorithmus. Es ist sehr einfach und legt ungefähr fest, welches Ergebnis erwartet wird. Nach ein paar Sitzungen, Genauigkeit wird aufgezeichnet, Präzision, etc. und der Algorithmus wird verfeinert, um seine Effizienz zu maximieren.

Dies ist eine ausgezeichnete und zuordenbare Antwort. Beachten Sie, dass maschinelles Lernen, der am meisten erwartete Aspekt des Jobs eines Data Scientists, besetze einfach die 5% der Gesamtzeit. Genauso wie Vinita, du hast deine Aufgaben auch prozentual erklärt. Hier ist Justins Meinung:

  • Aufgaben im Zusammenhang mit NLP (15%). Es ist kein Wunder, dass die automatische Korrekturtechnologie von PaperRater einen intensiven Einsatz von Parsern erfordert., Tagger, reguläre Ausdrücke und andere Vorteile von NLP als Teil von Kernalgorithmen und Feedbackmodulen.
  • Maschinelles Lernen (5%). Dies ist normalerweise der angenehmste Teil. Datenbereinigung, Extraktion / Maschinenbau / Merkmalsauswahl und Modellbau
  • Berichte und Analysen (10%). Abfragen ausführen, Überprüfung der Analyse und Hilfe bei der strategischen Entscheidungsfindung
  • Datenmanagement (5%). Datenbankserver konfigurieren und verwalten, einschließlich MySQL, Redis y MongoDB. Größere Projekte erfordern möglicherweise Hadoop oder Spark
  • Allgemeine Softwareentwicklung (40%). Viele Data Scientists haben einen Hintergrund in Informatik, erwarten Sie also eine Zusammenarbeit, wenn Sie über ausreichende Erfahrung verfügen. API-Integration, Webentwicklung und überall wo Sie Mehrwert schaffen können. Auch in einem KI-Startup, Der größte Teil der Entwicklung wird keine KI beinhalten
  • Sonstiges (25%). Dazu gehören vielfältige Aufgaben, inklusive Blogbeiträge, Marketing, Management, Technische Dokumentation, technischer Support, Kopie des Webportals, E-Mails, Treffen, etc.

Der Autor, Tim Kiely, Verwenden Sie ein Venn-Diagramm, um zu erklären, was Data Science ist. Schauen Sie sich einfach dieses Venn-Diagramm unten an: wird dich umhauen. Tim spricht weiter darüber, was Data Scientists sein sollen, indem er eine etwas widersprüchliche Sicht der allgemeinen Definition vertritt.. Hier ist Tims Lösung:

Das “Datenwissenschaftler” Es ist ein bisschen ein Mythos, meiner Meinung nach. Es bedeutet nicht, dass sie nicht da draußen sind, aber sie sind viel seltener als allgemein angenommen und eher die Ausnahme als die Regel.

Ich vergleiche es mit dem Titel von “Webmaster” aus der Dotcom-Blase: diese sogenannten Leute, die volle Programmierung machen könnten, Frontend-Entwicklung, Marketing, alles. All diese Rollen / Fähigkeiten waren schon immer spezialisiert und sind es auch heute noch.

„Data Scientists“ sollen Datenbankarchitekten sein, Verteiltes Rechnen verstehen, verfügen über fundierte Kenntnisse in Statistik UND in einem Geschäftsbereich oder Erfahrung in diesem Bereich. Das ist eine Menge verlangt, wenn eine dieser Fähigkeiten eine Karriere braucht, um sie aufzubauen..

data_scientist_role


Die Data Scientists, mit denen ich zusammengearbeitet habe, haben normalerweise einen Ph.D.. in künstlicher Intelligenz oder maschinellem Lernen und sind effektive Kommunikatoren, was ihnen die Möglichkeit gibt, Analysten zu leiten, DevOps-Mitarbeiter, Datenbankentwickler und -administratoren stehen zur Verfügung, um Probleme mit datengesteuerten Lösungen zu beheben. Sie beschreiben die gewünschte Antwort und lassen ihre Teams die Lücken füllen.

Lassen Sie uns in eine bestimmte Spezialisierung auf maschinelles Lernen eintauchen. Eines meiner liebsten – Verarbeitung natürlicher Sprache (NLP)! Ich wollte hier die Meinung eines Machine-Learning-Ingenieurs zum Ausdruck bringen (eine Rolle, die jeder Data Scientist kennen sollte). Siehe Evans Komplettlösung:

Heute im NLP arbeiten, hauptsächlich, einschließlich Intent-Klassifizierung und Entitätsextraktion. Das ist ein typischer Tag für mich:

  • mach dich an die Arbeit, öffne GitHub und überprüfe das ZenHub-Dashboard (so etwas wie Jira, außer es ist viel cooler). Ich hatte gestern Abend einige Modelle auf unseren Servern trainiert und ich hätte eine E-Mail erhalten sollen, dass sie fertig sind. Ich tat!
  • Ich werde wahrscheinlich ein paar Minuten damit verbringen, diese neuen Modelle zu testen und dann einige Parameter anzupassen, später werde ich den Trainingsvorgang neu starten
  • Den Rest des Tages neige ich dazu zu codieren, entweder an einer Back-End-Python-Anwendung arbeiten, die die künstliche Intelligenz für eines unserer Produkte bereitstellt, oder einen neuen Algorithmus implementieren, den ich testen möchte.
  • Als Beispiel, Ich habe vor kurzem einen Beitrag über angedocktes simuliertes Glühen gelesen (CSA) und wollte es mal versuchen, die Parameter für XGBoost als Alternative zu einer Gittersuche anzupassen. CSA ist eine verallgemeinerte Form des simulierten Glühens (ZU), Dies ist ein Algorithmus, um eine Funktion voll auszunutzen, die keine Informationen über die Ableitung der Funktion verwendet.
  • Leider, Ich konnte keine Implementierung in Python finden, Deshalb habe ich beschlossen, meine eigenen zu schreiben. Zwei Tage später, Ich hatte mein erstes Paket an PyPI . geschickt!

Abschließende Anmerkungen

Die Rolle des Data Scientists ist wirklich vielseitig, Es ist nicht so? VIELE angehende Data Scientists gehen davon aus, dass sie vor allem rund um die Uhr Modelle bauen werden, Aber das ist nicht der Fall.

Ein typisches Data-Science-Projekt umfasst alle möglichen Aufgaben, an denen Sie tagtäglich arbeiten werden. Ich mag es sehr, weil es Wege eröffnet, neue Konzepte zu lernen und in der realen Welt anzuwenden.

Ich werde einige weitere karrierebezogene Beiträge auf DataPeaker veröffentlichen, Also bleib dran und lerne weiter!

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.