Concours de Kaggle | Liste des problèmes de Kaggle

Contenu

introduction

Ai-je les compétences nécessaires pour participer aux compétitions Kaggle?

Avez-vous déjà été confronté à cette question? Au moins je l'ai fait, quand j'étais en deuxième année, quand j'avais peur de Kaggle juste en imaginant le niveau de difficulté qu'il propose. Cette peur était similaire à ma peur de l'eau. Ma peur de l'eau ne m'a pas permis de prendre des cours de natation. Cependant, plus tard j'ai appris: “Jusqu'au moment où tu ne marches pas sur l'eau, ne vois-tu pas à quel point c'est profond”. Une philosophie similaire s'applique à Kaggle. Ne terminez pas avant d'avoir essayé !!

kaggle-logo-transparent-300-1024x465-5658914

Kaggle, la maison de la science des données, fournit une plate-forme mondiale de compétences, solutions pour les clients et la banque d'emplois. Voici la capture d'écran de Kaggle, ces compétitions ne font pas que sortir des sentiers battus, ils offrent également un prix en espèces attrayant.

Cependant, les gens hésitent à participer à ces concours. Certaines des principales raisons sont énumérées ci-dessous:

  1. Ils méprisent votre niveau de compétence, connaissances et techniques acquises.
  2. Quel que soit votre niveau de compétence, choisissez le problème qui offre le prix le plus élevé.
  3. Ils ne parviennent pas à confondre leur niveau de compétence avec le niveau de difficulté du problème.

Je pense que ce problème vient de Kaggle lui-même. Kaggle.com ne fournit aucune information pouvant aider les gens à choisir le problème le plus approprié qui correspond à leurs compétences. Par conséquent, est devenu une corvée pour les débutants / les intermédiaires décident quel est le bon problème pour commencer.

Qu'allez-vous apprendre dans cet article?

Dans cet article, nous avons ouvert l'impasse pour choisir le problème de kaggle approprié en fonction de vos compétences, outils et techniques. Ici, nous avons illustré chaque problème de Kaggle avec le niveau de difficulté et le niveau de compétences nécessaires pour le résoudre.

Dans la dernière partie, nous avons défini la bonne approche pour résoudre un problème de kaggle pour les cas suivants:

Cas 1: j'ai de l'expérience en codage, mais je suis nouveau dans l'apprentissage automatique.

Cas 2: Je suis dans l'industrie de l'analytique depuis plus de 2 ans, mais je ne suis pas à l'aise avec R / Python

Cas 3: Je suis bon avec le codage et l'apprentissage automatique, J'ai besoin de quelque chose de stimulant sur lequel travailler

Cas 4: Je suis un débutant à la fois en apprentissage automatique et en langage de codage, mais je veux apprendre

Liste des problèmes de Kaggle

1. Titanesque: apprentissage automatique à partir de catastrophes

Cibler: Un problème populaire classique pour commencer votre voyage avec l'apprentissage automatique. On vous donne un ensemble d'attributs des passagers à bord et vous devez prédire qui aurait survécu après le naufrage du navire.

titanesque-4547234

Niveau de difficulté

une) Compétences en apprentissage automatique: facile

b) Compétences en codage: facile

c) Acquérir des compétences de maîtrise: facile

ré) Tutoriels disponibles – Très complet

2. Premier pas avec Julia

Cibler: Il s'agit d'un problème pour identifier les personnages dans l'image Google Street View à l'aide d'un outil à venir, Julia.

julia-5605648

Niveau de difficulté dans chacun des attributs:

une) Compétences en apprentissage automatique: facile

b) Compétences en codage – Moitié

c) Acquérir des compétences de maîtrise: facile

ré) Tutoriel disponible – Complet

3. Reconnaissance de chiffres

Cibler: On vous donne une donnée avec des pixels en chiffres manuscrits et vous devez dire de manière concluante de quel chiffre il s'agit. C'est un problème classique pour le modèle de Markov latent.

Niveau de difficulté dans chacun des attributs:

une) Compétences en apprentissage automatique: demi

b) Compétences en codage – Moitié

c) Acquérir des compétences de maîtrise: facile

ré) Tutoriel disponible: disponible mais sans poignée

4. Sac de mots avec sac de pop-corn

Cibler: On vous donne un certain nombre de critiques de films et vous devez trouver le sentiment caché dans cette déclaration. Le but de cet énoncé du problème est de vous présenter le package Google – Word2Vec.

C'est un package fantastique qui vous aide à convertir des mots dans un espace de dimension finie. De cette façon, nous pouvons construire des analogies simplement en regardant le vecteur. Un exemple très simple est que votre algorithme peut générer des analogies comme: Rey – Homme + La femme te donnera la reine.

pop-corn-3400048

Niveau de difficulté dans chacun des attributs:

une) Compétences en apprentissage automatique – Dur

b) Compétences en codage – Moitié

c) Acquérir des compétences de maîtrise: facile

ré) Tutoriel disponible – Disponible mais sans poignée

5. Suppression du bruit des documents sales

Cibler: Vous connaissez peut-être une technologie appelée OCR. Convertissez simplement des documents manuscrits en documents numériques. Cependant, n'est pas parfait. Votre travail ici consiste à utiliser l'apprentissage automatique pour le rendre parfait..

documents-3979703

Niveau de difficulté dans chacun des attributs:

une) Compétences en apprentissage automatique – Dur

b) Compétences en codage – Dur

c) Acquérir des compétences de maîtrise: difficile

ré) Tutoriel disponible – Non

6. Classification de la criminalité à San Francisco

Cibler: Prédire la catégorie de crimes qui se sont produits dans la ville près de la baie.

san-francisco-4992579

Niveau de difficulté dans chacun des attributs:

une) Compétences en apprentissage automatique: très difficile

b) Compétences en codage: très difficile

c) Acquérir des compétences de maîtrise: difficile

ré) Tutoriel disponible – Non

7. Conditions météorologiques / emplacement de prédiction de trajectoire de taxi

Cibler: Il y a deux problèmes basés sur les mêmes ensembles de données. Un chauffeur de taxi vous est fourni et vous êtes censé prédire où va le taxi ou combien de temps il faudra pour terminer le voyage.

taxi-1-6609405

Niveau de difficulté dans chacun des attributs:

une) Compétences en apprentissage automatique: facile

b) Compétences en codage – Dur

c) Acquérir des compétences de maîtrise: demi

ré) Tutoriel disponible: quelques codes de référence disponibles

8. Recrutement Facebook: humain le bot

Cibler: Si vous avez un problème pour comprendre un nouveau domaine, faut résoudre ça. Vous recevez les détails de l'appel d'offres et vous devez classer le soumissionnaire comme bot ou humain. Cela a la source de données la plus riche disponible de tous les problèmes de Kaggle.

fb-7912754

Niveau de difficulté dans chacun des attributs:

une) Compétences en apprentissage automatique: demi

b) Compétences en codage – Moitié

c) Acquérir des compétences de maîtrise: demi

ré) Tutoriel disponible: pas de support disponible car il s'agit d'un concours de recrutement

Noter: Je n'ai pas couvert les concours Kaggle qui offrent des prix en argent dans cet article., car ils sont tous liés à un domaine spécifique. Faites-moi savoir ce que vous en pensez dans la section commentaire ci-dessous..

Nous allons maintenant chercher la bonne approche pour les personnes qui ont des compétences différentes à différentes étapes de la vie pour commencer leur voyage Kaggle !!

Cas 1: j'ai de l'expérience en codage, mais je suis nouveau dans l'apprentissage automatique.

Paso 1: Le premier problème de Kaggle que vous devez résoudre est: Prédiction de trajectoire de taxi. La raison en est que le problème a un ensemble de données complexe qui inclut un format JSON dans l'une des colonnes qui indique l'ensemble de coordonnées que le taxi a visité. Si tu peux décomposer ça, obtenir une estimation initiale de la cible ou de l'heure cible n'a pas besoin d'apprentissage automatique. Donc, vous pouvez utiliser votre force de codage pour trouver votre valeur dans cette industrie.

Paso 2: Votre prochaine étape devrait être de prendre: Titanesque. La raison en est que vous comprendrez maintenant comment gérer des ensembles de données complexes. Donc, c'est le moment idéal pour essayer de résoudre des problèmes d'apprentissage automatique purs. Avec abondance de solutions / scripts disponibles, sera capable de construire une bonne solution.

Paso 3: Maintenant tu es prêt pour quelque chose de grand. Essayez le recrutement sur Facebook. Cela vous aidera à comprendre comment la compréhension du domaine peut vous aider à tirer le meilleur parti de l'apprentissage automatique..

Une fois que vous avez toutes ces pièces en place, vous pouvez tester n'importe quel problème sur Kaggle.

Cas 2: Je suis dans l'industrie de l'analytique depuis plus de 2 ans, mais je ne suis pas à l'aise avec R / Python

Paso 1: Vous devriez commencer par prendre une photo sur Titanic. La raison en est que vous savez déjà comment construire un algorithme prédictif. Vous devriez maintenant vous efforcer d'apprendre des langages comme R et Python. Avec un grand nombre de solutions / scripts disponibles, vous pourrez construire différents types de modèles à la fois en R et en Python. Ce problème vous aidera également à comprendre certains algorithmes avancés d'apprentissage automatique.

Paso 2: La prochaine étape devrait être le recrutement sur Facebook. La raison en est que, vu la simplicité de la structure des données et la richesse du contenu, vous pourrez joindre les tables correctes et faire un algorithme prédictif sur ce. Cela vous aidera également à comprendre comment la compréhension du domaine peut vous aider à tirer le meilleur parti de l'apprentissage automatique..

Suggestions: Vous êtes maintenant prêt pour quelque chose de très différent de votre zone de confort.. Lisez des problèmes comme le dépistage de la rétinopathie diabétique, Clics sur les annonces contextuelles Avinto, Classification des crimes et trouver le domaine qui vous intéresse. Essayez maintenant d'appliquer ce que vous avez appris jusqu'à présent.

Il est maintenant temps d'essayer quelque chose de plus complexe à coder. Essayez la prédiction de trajectoire de taxi ou le débruitage de documents sales. Une fois que vous avez toutes ces pièces en place, maintenant vous pouvez essayer n'importe quel problème dans Kaggle.

Cas 3: Je suis bon avec le codage et l'apprentissage automatique, J'ai besoin de quelque chose de stimulant sur lequel travailler

Paso 1: Vous avez de nombreuses options à Kaggle. La première option est de maîtriser une nouvelle langue comme Julia. Vous pouvez commencer par First Step avec Julia. La raison en est que cela vous donnera une exposition supplémentaire à ce que Julia peut faire en plus de Python ou R.

Paso 2: La deuxième option est de développer des compétences avec une maîtrise supplémentaire. Vous pouvez essayer Avito Context, Pertinence de la recherche sur Facebook – Humain contre. Bot.

Cas 4: Je suis un débutant à la fois en apprentissage automatique et en langage de codage, mais je veux apprendre

Paso 1: Vous devriez commencer votre voyage Kaggle avec Titanic. La raison en est que la première étape pour vous est d'apprendre des langages comme R et Python. Avec un grand nombre de solutions / scripts disponibles, vous pourrez construire différents types de modèles à la fois en R et en Python. Ce problème vous aidera également à comprendre certains algorithmes d'apprentissage automatique.

Paso 2: Alors je devrais prendre: Recrutement Facebook. La raison en est que, vu la simplicité de la structure des données et la richesse du contenu, vous pourrez joindre les tables correctes et faire un algorithme prédictif sur ce. Cela vous aidera également à comprendre comment la compréhension du domaine peut vous aider à tirer le meilleur parti de l'apprentissage automatique..

Une fois que vous avez terminé avec ces, peut résoudre les problèmes en fonction de votre intérêt.

Quelques astuces pour être une compétition loyale à Kaggle

Ce n'est pas une liste complète de hacks, mais c'est pour te faire prendre un bon départ. La liste complète mérite à elle seule un nouveau post:

  1. Assurez-vous de soumettre une solution (même la soumission d'échantillons fera ce travail) avant la dernière date d'inscription, si vous souhaitez participer au concours à l'avenir.
  2. Comprendre le domaine avant de passer aux données. Par exemple, en bot contre humain, vous devez comprendre le fonctionnement de la plateforme d'enchères en ligne avant de commencer le voyage avec les données.
  3. Créez votre propre algorithme d'évaluation qui peut imiter le score du test de Kaggle. Une simple validation croisée de 10 fois fonctionne généralement bien.
  4. Essayez d'extraire autant de caractéristiques que possible des données du train; l'ingénierie des fonctionnalités est généralement la partie qui vous pousse du centile 40 au-dessus du centile 10 supérieur.
  5. Comme d'habitude, un seul modèle ne le place pas au sommet 10. Vous devez faire beaucoup de modèles et les assembler. Il peut s'agir de plusieurs modèles avec différents algorithmes ou différents ensembles de variables.

Remarques finales

Il y a plusieurs avantages que j'ai réalisé après avoir travaillé sur les problèmes de Kaggle. J'ai appris R / Python en déplacement. Je pense que c'est la meilleure façon d'apprendre la même chose. En outre, interagir avec des personnes du forum de discussion sur divers problèmes vous aidera à mieux comprendre l'apprentissage et la maîtrise de la machine.

Dans cet article, Nous illustrons divers problèmes de Kaggle et classons ses attributs essentiels selon le niveau de difficulté. Nous avons également abordé divers cas réels et avons obtenu la bonne approche pour nous impliquer dans Kaggle.

Avez-vous été impliqué dans des problèmes de Kaggle? Avez-vous vu un avantage significatif à faire de même? Faites-nous part de vos réflexions sur ce guide dans la section commentaires ci-dessous..

Si vous aimez ce que vous venez de lire et souhaitez continuer à apprendre sur l'analyse, abonnez-vous à nos e-mails, Suivez-nous sur Twitter ou comme le nôtre page le Facebook.

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.