Formation Python | Python pour la science des données

Contenu

Passer d'un débutant Python à un Kaggler en Python

Alors tu fais semblant devenir data scientist ou il se peut que vous le soyez déjà et que vous souhaitiez étendre votre référentiel d'outils. Vous avez atterri au bon endroit. L'objectif de cette page est de fournir un parcours d'apprentissage complet aux personnes novices en Python pour la science des données.. Ce chemin fournit un aperçu complet des étapes que vous devriez apprendre à utiliser. Python pour la science des données. Si vous avez déjà un peu d'expérience, ou vous n'avez pas besoin de tous les composants, n'hésitez pas à adapter vos propres chemins et dites-nous comment vous avez apporté les changements en cours de route.

Vous pouvez également consulter la version mini de ce parcours d'apprentissage -> Infographie: Guide rapide pour apprendre la science des données en Python.

Lire ceci dans 2019? Nous avons conçu un parcours d'apprentissage mis à jour pour toi! Consultez-le sur notre portail de cours et commencez votre parcours en science des données dès aujourd'hui.

Paso 0: Chauffage

Avant de commencer votre voyage, la première question à laquelle il faut répondre est:

Pourquoi utiliser python?

O

Comment Python serait-il utile?

Regardez le premier 30 minutes de ce parler de jérémy, Fondateur de DataRobot chez PyCon 2014, Ukraine, pour avoir une idée de l'utilité de Python.

Paso 1: configuration de votre machine

Maintenant que tu as pris ta décision, il est temps de configurer votre machine. La façon la plus simple de procéder est simplement télécharger Anaconda par Continuum.io. Il est livré avec la plupart des choses dont vous aurez besoin. Le principal inconvénient de prendre cette route est que vous devrez attendre que Continuum mette à jour vos packages, même lorsqu'une mise à jour peut être disponible pour les bibliothèques sous-jacentes. Si vous êtes débutant, ça ne devrait pas avoir d'importance.

Si vous rencontrez un problème d'installation, peut trouver plus instructions détaillées pour divers systèmes d'exploitation ici.

Paso 2: apprendre les bases du langage Python

Vous devez commencer par comprendre les bases de la langue, bibliothèques et structure de données. Les gratuite Cours DataPeaker en Python c'est l'un des meilleurs endroits pour commencer votre voyage. Ce cours se concentre sur la façon de démarrer avec Python pour la science des données et, à la fin, doit être à l'aise avec les bases de la langue.

Mission: Prendre la super cours Python gratuit de DataPeaker

Ressources alternatives: Si le codage interactif n'est pas votre style d'apprentissage, Vous pouvez également consulter le Classe Google pour Python. C'est une série de types de 2 jours et couvre également certaines des parties qui sont discutées plus tard.

Paso 3: apprendre les expressions régulières en Python

Vous aurez besoin de les utiliser beaucoup pour le nettoyage des données, surtout si vous travaillez avec des données textuelles. la meilleure façon de apprendre les expressions régulières est de passer par la classe google et de garder ceci aide-mémoire pratique.

Mission: Faire le exercice de prénoms de bébé

Si vous avez encore besoin de plus de pratique, suivez ce tutoriel pour nettoyer le texte. Vous mettra au défi dans les différentes étapes impliquées dans la gestion des données.

Paso 4: Apprendre les bibliothèques scientifiques en Python: NumPy, SciPy, Matplotlib et les pandas

C'est là que le plaisir commence !! Voici une brève introduction à diverses bibliothèques. Commençons à pratiquer quelques opérations courantes.

  • Pratiquez le Tutoriel NumPy à fond, en particulier les tableaux NumPy. Cela constituera une bonne base pour les choses à venir..
  • Ensuite, regarde le Tutoriels de science-fiction. Revoyez l'introduction et les bases et faites le reste selon vos besoins.
  • Si vous avez deviné les tutoriels Matplotlib ci-dessous, tu te trompes! Ils sont trop complets pour notre besoin ici. Au lieu, regarde ça cahier python jusqu'à la ligne 68 (En d'autres termes, même des animations)
  • En conclusion, jetons un œil aux pandas. Pandas fournit la fonctionnalité DataFrame (comment r) pour Python. C'est aussi là que vous devriez passer un bon moment à pratiquer. Pandas deviendrait l'outil le plus efficace pour toutes les analyses de données de taille moyenne. Commencez par une courte introduction, 10 minutes pour les pandas. Après, aller à une description plus détaillée. tuto sur les pandas.

Vous pouvez également afficher l'analyse de données exploratoire avec Pandas et l'analyse de données avec Pandas.

Ressources additionnelles:

  • Si vous avez besoin d'un livre sur Pandas et NumPy, “Python pour l'analyse des données par Wes McKinney “
  • Il existe de nombreux tutoriels dans le cadre de la documentation Pandas. Vous pouvez les regarder ici

Mission: Résoudre ça Mission de cours CS109 le Harvard.

Paso 5: visualisation efficace des données

Passez par là formulaire de conférence CS109. Vous pouvez ignorer le 2 minutes initiales, Mais ce qui suit est incroyable !! Suivez cette conférence avec cette mission.

Paso 6: Aprenda Scikit-learn et Machine Learning

À présent, nous arrivons au cœur de toute cette procédure. Scikit-learn est la bibliothèque la plus utile en Python pour l'apprentissage automatique. Voici une brève description de la bibliothèque. Passer la leçon 10 à la leçon 18 de Cours Harvard CS109. Vous passerez par un aperçu de l'apprentissage automatique, algorithmes d'apprentissage supervisé sous forme de régressions, arbres de décision, définir des algorithmes de modélisation et d'apprentissage non supervisé tels que le clustering. Suivez des conférences individuelles avec le affectations de ces conférences.

Vous devriez également consulter le ‘Introduction à la science des donnéescertainement pour vous donner un coup de pouce dans votre quête d'un poste de data scientist.

Ressources additionnelles:

Paso 7: s'entraîner, pratique et pratique

Toutes nos félicitations, tu as réussi!

Vous avez maintenant tout ce dont vous avez besoin en compétences techniques. C'est une question de pratique et quel meilleur endroit pour pratiquer que de rivaliser avec d'autres data scientists dans le monde. Plateforme DataHack. Et, plongez-vous dans l'une des compétitions en direct qui se déroulent en ce moment à DataHack et Kaggle et essayez tout ce que vous avez appris.

Paso 8: l'apprentissage en profondeur

Maintenant que vous avez appris la plupart des techniques d'apprentissage automatique, le temps de donner une chance à l'apprentissage en profondeur. Il y a de fortes chances que vous sachiez déjà ce qu'est l'apprentissage en profondeur, mais si vous avez encore besoin d'une brève introduction, C'est ici.

Je suis nouveau dans l'apprentissage en profondeur moi-même, alors prenez ces suggestions avec prudence. La ressource la plus complète est deeplearning.net. Ici vous trouverez tout: conférences, ensembles de données, défis, tutoriels. Vous pouvez également essayer le Cours Geoff Hinton une tentative pour tenter de comprendre les bases des réseaux de neurones.

Premiers pas avec Python: Un didacticiel complet pour apprendre la science des données avec Python à partir de zéro

PS Au cas où vous auriez besoin d'utiliser des bibliothèques Big Data, essayez Pydoop et PyMongo. Non inclus ici, puisque le parcours d'apprentissage Big Data est un sujet à part entière.

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.