Ensembles de données Kaggle | Les meilleurs ensembles de données Kaggle à pratiquer pour les scientifiques des données

Contenu

introduction

65134art-8450680

Kaggle propose de nombreuses ressources en ligne pour vous aider à vous lancer dans la science des données. Contient des milliers d'ensembles de données, concours de science des données, soumissions de code dans les ensembles de données, chat communautaire et même des cours pour débutants. L'utilisateur obtient également un profil d'utilisateur public qui peut être partagé, qui suit et affiche toutes les contributions et réalisations des utilisateurs.

Le profil d'utilisateur montre qui l'utilisateur suit, qui suit l'utilisateur, Code d'utilisateur, tout ensemble de données d'utilisateur et d'autres informations. Il existe également plusieurs méthodes de classification. Le profil Kaggle est un excellent moyen de créer des projets en ligne partageables et de mettre en valeur votre talent.. Comme votre profil HackerEarth ou Code Chef montre vos compétences de codage compétitif, votre profil kaggle sert à exprimer vos compétences en science des données.

Pour construire un bon profil Kaggle, vous devez travailler sur les données et créer des cahiers Python ou R de haute qualité sous forme de projets et raconter une histoire à travers les données. Plusieurs graphiques de données peuvent être ajoutés, écrire des ventes et former des modèles dans Kaggle Notebooks. Vous pouvez faire beaucoup de choses avec eux. Et la meilleure chose à propos de Kaggle Notebooks est que: l'utilisateur n'a pas besoin d'installer Python ou R sur son ordinateur pour l'utiliser. Presque toutes les grandes bibliothèques peuvent être importées directement. Kaggle fournit également des TPU gratuitement. Unités de traitement tensoriel (TPU) sont des accélérateurs matériels spécialisés dans les tâches de deep learning. Ils sont compatibles avec Tensorflow 2.1 à la fois via l'API de haut niveau Keras et, à un niveau inférieur, sur les modèles qui utilisent un cycle d'entraînement personnalisé.

Donc, travailler avec des ensembles de données dans Kaggle est très facile et pratique et tous les débutants devraient essayer Kaggle pour développer des compétences et des connaissances.

Voici quelques ensembles de données que chaque débutant peut essayer et créer des projets incroyables:

1. Films et émissions de télévision Netflix

51509ntflix-8793984

Qui n'aime pas Netflix? Cet ensemble de données Kaggle contient des émissions de télévision et des films disponibles sur Netflix. Un projet d'analyse de données exploratoire de bonne qualité peut être créé à l'aide de cet ensemble de données. Avec cet ensemble de données, vous pouvez découvrir: quel type de contenu est produit dans quel pays, identifier un contenu similaire à partir de la description et des tâches beaucoup plus intéressantes.

  1. Lien vers l'ensemble de données

Mes cahiers préférés

  1. EDA sur ordinateur portable Netflix
  2. Données Netflix: cahier d'analyse et de visualisation

2. Performances des élèves aux examens

85211examen-8403279

Ces données sont basées sur la démographie de la population. Les données contiennent plusieurs caractéristiques telles que le type de nourriture que l'élève reçoit, le niveau de préparation aux tests, niveau de scolarité des parents et performance des élèves en mathématiques, Lire et écrire. Avec les données, divers types de problèmes de régression et de classification peuvent être résolus. Il peut également être utilisé pour trouver quels facteurs peuvent conduire à de meilleurs résultats aux tests.. En général, ça va être intéressant de travailler dessus.

  1. Lien vers l'ensemble de données

Mes cahiers préférés

  1. Performances des élèves dans le cahier de test

3. Classement tarifaire mobile

84146téléphone-3523780

L'ensemble de données Mobile Price Ranking a de nombreuses caractéristiques de données et une grande variété de données qui suivent divers modèles de distribution. Il y a des caractéristiques catégorielles, des données numériques continues et même des données binaires. Un grand nombre de modèles de données garantit que l'on est capable de travailler avec une grande quantité de données et de traiter divers calculs mathématiques et statistiques..

  1. Lien vers l'ensemble de données

Mes cahiers préférés

  1. Carnet de prédiction de prix pour appareils mobiles
  2. Prévision de prix mobile n. ° 2

4. Images de chat et de chien

84974chat_et_chien-2996462

L'ensemble de données de classification classique Chien vs Chat. Il existe de nombreuses images de chiens et de chats qui peuvent être utilisées pour entraîner des modèles et faire des prédictions.. Cet ensemble de données est indispensable pour les étudiants qui tentent de se lancer dans le traitement d'images ou la vision par ordinateur. En outre, vous pouvez voir de nombreuses photos mignonnes de chats et de chiens.

  1. Lien vers l'ensemble de données

Mes cahiers préférés

  1. Cahier de tri d'images de chats et de chiens

5. Avis sur les hôtels Trip Advisor

90269voyage-9098233

Les hôtels sont une partie importante des voyages et des vacances. Les avis sur les hôtels sont des données textuelles, qui peuvent être traités à l'aide de méthodes de traitement du langage naturel (PNL). Il y a plus de 20.000 avis d'hôtels suivis d'un nombre d'étoiles de 1 une 5. L'ensemble de données peut être utilisé pour former un modèle de notation afin de déterminer la note en étoiles pour une revue de test donnée.. Cela peut être un bon tremplin pour se lancer dans l'analyse de texte et la PNL.

  1. Lien vers l'ensemble de données

Mes cahiers préférés

  1. Cahier de prédiction d'opinion sur l'hôtel

6. Marché du logement de Melbourne

16194melb-8955601

L'ensemble de données du marché du logement de Melbourne est une ressource d'apprentissage préférée de tous les temps pour les débutants en science des données. Il a de nombreuses fonctionnalités: donnees numeriques, catégorique et même géographique (Latitude et longitude). Pourtant, peut également être utilisé pour l'analyse géospatiale et d'autres problèmes de regroupement. de la même manière, des tâches de régression et de classification peuvent également être effectuées sur cet ensemble de données. Il existe également de nombreux exemples de code et guides disponibles pour cet ensemble de données, ce qui en fait l'ensemble de données idéal pour les étudiants.

  1. Lien vers l'ensemble de données

Mes cahiers préférés

  1. Melbourne || Cahier d'analyse complet du marché du logement
  2. Carnet d'analyse complète du marché immobilier de Melboune

7. Modélisation des abandons

15848désabonnement-9648912

Le taux de désabonnement des employés indique la fréquence à laquelle les employés de l'entreprise quittent leur emploi au cours d'une période donnée. C'est un aspect important de l'analyse des ressources humaines et de la stratégie d'entreprise. Les données sont des caractéristiques de la vie réelle telles que l'âge, le genre, le temps passé avec l'entreprise et d'autres caractéristiques importantes. Les données peuvent être utilisées pour créer un modèle de classification et explorer des modèles intéressants dans les données..

  1. Lien vers l'ensemble de données

Mes cahiers préférés

  1. Carnet de classement des abandons

8. Haut Amazon 50 livres les plus vendus 2009-2019

82787livre-9936496

Il est toujours intéressant de travailler avec un ensemble de données de ventes et d'obtenir des informations. Les fonctionnalités incluent l'évaluation des utilisateurs d'Amazon, le nombre d'avis sur Amazon et autres. Cet ensemble de données peut être utilisé pour créer des projets EDA et également créer une analyse de régression. Peut être utilisé pour créer une étude de cas intéressante sur le succès des livres les plus vendus.

  1. Lien vers l'ensemble de données

Mes cahiers préférés

  1. Cahier de livres les plus vendus d'Amazon

9. Ensemble de données personnelles sur les dépenses médicales

24160hop-5591675

Cet ensemble de données est utilisé pour faire des prévisions d'assurance basées sur diverses fonctions. Les caractéristiques intéressantes incluent l'IMC, le nombre d'enfants et si la personne est fumeur ou non. Il est également inclus dans la catégorie des données démographiques et peut être utilisé pour afficher une analyse des dépenses d'assurance d'un individu.

  1. Lien vers l'ensemble de données

Mes cahiers préférés

  1. Frais pour les patients || Bloc-notes sur le clustering et la régression

10. Résultats de la recherche des exoplanètes Kepler

47296espace-8839848

Kepler avait vérifié 1284 nouvelles exoplanètes en mai 2016. En octobre 2017, il y a plus de 3000 nombre total d'exoplanètes confirmées (en utilisant toutes les méthodes de détection, y compris terrestre). Le télescope est toujours actif et continue de collecter de nouvelles données sur sa mission prolongée..

Les données ont plusieurs caractéristiques, tout cela peut être un peu difficile à comprendre. Un guide expliqué détaillé peut être trouvé ici.

  1. Lien vers l'ensemble de données

Remarques finales

Il y a beaucoup d'ordinateurs portables dans cet ensemble de données, peut être un peu difficile pour les débutants, mais vous pouvez faire beaucoup de travail sur cet ensemble de données.

Il y a beaucoup plus d'ensembles de données et de défis disponibles sur Kaggle, à partir de laquelle les débutants peuvent apprendre. Votre profil Kaggle peut également être utilisé comme un moyen d'exprimer vos compétences en science des données..

Les médias présentés dans cet article sur les ensembles de données Kaggle ne sont pas la propriété de DataPeaker et sont utilisés à la discrétion de l'auteur.

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.