Commencer par Kaggle | Le premier regard sur Kaggle

Contenu

Cet article a été publié dans le cadre du Blogathon sur la science des données

introduction

Chaque carrière actuelle doit avoir une communauté, un groupe de personnes avec qui nous pouvons parler du travail, les erreurs, idées et apprendre. Kaggle est la communauté de science des données la plus grande et la plus populaire au monde. Avoir une telle communauté nous aide à sentir que nous « appartenons », qui est l'un des sentiments cruciaux pour notre interaction sociale et notre santé.

Dans cet article, nous verrons Kaggle comme une communauté complète et Kaggle comme une plateforme: tous ses différents outils, les services et les ressources disponibles afin que nous puissions apprendre Comme pratiquer la science des données.

Voyons l'interface que nous obtenons lorsque nous visitons Kaggle pour la première fois.

56769capture d

Avant de commencer à utiliser Kaggle, nous devons créer un compte puis nous connecter, vous pouvez voir les deux options dans le coin supérieur droit. Une fois que j'en ai fini avec ça, voilà à quoi cela pourrait ressembler.

90248capture d

Certaines des choses visibles ici peuvent être différentes pour vous car l'interface est personnalisée avec la façon dont j'ai utilisé Kaggle jusqu'à présent depuis le moment où je me suis inscrit.

Navbar et tout ce que nous avons à notre disposition à Kaggle:

62386capture d

Une fois que je clique sur 'plus', ce sont toutes les choses auxquelles je peux accéder depuis mon compte Kaggle.

75241capture d

À mon avis, il y a 4 choses importantes qui font Kaggle “LE MEILLEUR”.

1. Cours et certificats gratuits disponibles

De nombreux cours sont disponibles dans plusieurs domaines de l'apprentissage automatique et de la science des données.. Non seulement les cours sont disponibles, après chaque leçon, mais il y a aussi des cahiers d'exercices (exercices) disponible pour se familiariser avec le sujet. Pour obtenir votre certificat Kaggle gratuit, il est nécessaire de terminer toutes les tâches et exercices.

53223capture d
20483capture d
44530capture d

Il y a plus de cours, mais à travers ça, Je voulais vous montrer qu'il y a une telle diversité de sujets dans ces cours que vous n'avez pas à aller n'importe où, à tout moment se sentir perdu dans un problème ou un problème, obtenir de l'aide d'ici.

Laissez-moi vous montrer à quoi ressemblent ces cours avec un exemple:

59463capture d
48640capture d

A la fin de chaque cours, il y a une leçon supplémentaire, qui est différent en termes de contenu mais similaire au cas d'utilisation et à la compréhension du cours. Ils incluent principalement un thème célèbre et / ou puissant. Ici, nous avons AutoML (de Google) pour automatiser l'apprentissage automatique.

2. Une énorme collection d'ensembles de données accessibles au public / contribué à la pratique / travailler

Pour toute tâche de science des données, d'apprentissage automatique ou d'apprentissage profond, nous avons besoin de données et beaucoup la plupart du temps. Au lieu de parcourir différents sites pour différents types / tailles des ensembles de données, Kaggle fournit un lieu commun pour une grande collection de tous ces ensembles de données. Vous pouvez les utiliser en un clic. Ils sont extrêmement faciles à utiliser.

29028capture d
32956capture d

Une fois que vous cliquez “Ensembles de données” dans la barre de navigation, c'est ce que vous verrez. Vous pouvez rechercher un ensemble de données spécifique, importer / contribuer votre propre ensemble de données à la communauté ou étudier ou commencer à travailler sur un ensemble de données, montré sur cette page. (Ensembles de données de tendance, Ensembles de données populaires, Ensembles de données récemment consultés)

Pour démonstration, Je vais rechercher un ensemble de données spécifique (“ensemble de données sur les taches solaires”). Voyons à quoi ça ressemble.

29789capture d

Le nombre dans la sélection rouge est le nombre de votes positifs que les gens ont donnés, pour l'option la plus pertinente / J'aime. Explorons et voyons cet ensemble de données en détail.

Il y a beaucoup de choses que nous pouvons utiliser pour en savoir plus sur ces données et commencer à travailler immédiatement.

  • Vous pouvez télécharger le jeu de données,
  • créer un nouveau bloc-notes Kaggle avec cet ensemble de données déjà chargé.
  • Quelques détails sur les colonnes dans les données.
  • Activités impliquant ces données.
  • Finalement, mais pas moins important, tous les blocs-notes créés et partagés publiquement à ce jour à l'aide de ces données.

3. Compétences en science des données / apprentissage automatique / l'apprentissage en profondeur

Bien que je n'aie participé à aucune d'entre elles, J'aime la façon dont nous avons terminé un problème en temps réel avec la communauté Kaggle et remporté des prix en argent incroyables (si nous participons à ce concours particulier). Je veux vraiment participer bientôt, j'espère que les images vous motiveront. Il n'est pas nécessaire que seules les grandes entreprises ou les entreprises riches puissent le faire. Vous pouvez faire cela aussi. Il y a certains protocoles qui doivent être suivis et le tour est joué, vous avez votre propre concours hébergé.

79134capture d
50413capture d

J'ai classé les concours terminés à ce jour en fonction de leur valeur de récompense. Regarder attentivement.

4. Cahiers Kaggle (code)

Pour toute tâche liée à la science des données ou à l'informatique, nous devons écrire au moins du code. Kaggle nous fournit son propre environnement Notebook avec une certaine limite de ce que nous pouvons y stocker (collectivement sur le compte), combien d'heures de GPU disponibles et combien d'heures de TPU disponibles. Ils sont entièrement intégrés à tous les services Kaggle et peuvent être utilisés indépendamment comme tout autre environnement d'ordinateur portable (Datalore, Google Colab, Jupyter, etc.), ce qui signifie que vous pouvez les utiliser pour votre pratique, compétitions de kaggles, Cours de Kaggle, analyser certains Kaggle / ou des ensembles de données non Kaggle et bien d'autres. Vous devez les vérifier.

92661capture d

En cliquant sur ce bouton noir, créez votre cahier ou ouvrez le cahier de quelqu'un d'autre que vous souhaitez lire et apprendre / comparer. Tous ces blocs-notes visibles sont explicitement partagés publiquement, ce qui signifie que vos blocs-notes ne seront visibles par personne, à moins que vous ne choisissiez de le faire.

Pour passer du CPU au GPU ou au TPU, Suivez ceci:

72424capture d

Ce sont la plupart des options fonctionnelles qui s'offrent à vous concernant cet ordinateur portable:

89069capture d
62421capture d

Voyons comment les utiliser avec des données (importé / tiré directement de Kaggle / téléchargé depuis l'url, etc.) et lancez-vous dans vos missions de data science.

90089capture d
93972capture d

Ici, je vais vous montrer comment utiliser cet ensemble de données de “Taches solaires” ce que nous avons vu avant. Commencez par chercher.

48408capture d
98343capture d

Maintenant, les données sont chargées correctement. La sélection dans l'image ci-dessus est le répertoire dans lequel il est stocké. Voyons un peu pandas code sur la façon d'importer l'ensemble de données.

44616capture d

La dernière chose que vous pouvez faire après avoir terminé votre projet / le travail est de le partager avec la communauté sur Kaggle. C'est une étape importante car en partageant nos idées, notre travail, nous étendons les utilitaires disponibles à la communauté et nous nous soutenons mutuellement. Nous grandissons grâce aux autres.

A gauche du gros bouton bleu en haut à droite, vous verrez un “Partager” bouton. Cliquez dessus et sélectionnez Public dans le menu déroulant.

31300capture d

J'espère que vous avez aimé ce que vous avez vu dans ce guide et que vous êtes impatient de commencer à utiliser Kaggle.

Gargeya Sharma

B.Tech Informatique 3er año
Spécialisé en science des données et deep learning
Stagiaire Data Scientist chez Upswing Cognitive Hospitality Solutions
Pour plus d'informations, vérifier ma page d'accueil github

LinkedIn GitHub

Les médias présentés dans cet article ne sont pas la propriété de DataPeaker et sont utilisés à la discrétion de l'auteur.

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.