Competição Kaggle | Lista de problemas do Kaggle

Conteúdo

Introdução

Eu tenho as habilidades necessárias para participar das competições Kaggle?

Você já enfrentou esta questão? Pelo menos eu fiz, quando eu era um segundo ano, quando eu costumava temer Kaggle só de imaginar o nível de dificuldade que ele oferece. Esse medo era semelhante ao meu medo de água. Meu medo de água não me permitiu ter aulas de natação. Porém, depois eu aprendi: “Até o momento em que você não pisa na água, você não pode ver o quão profundo é”. Uma filosofia semelhante se aplica ao Kaggle. Não conclua até tentar!!

kaggle-logo-transparent-300-1024x465-5658914

Kaggle, a casa da ciência de dados, fornece uma plataforma global para competências, soluções para clientes e banco de empregos. Aqui está a imagem do Kaggle, essas competições não fazem você apenas pensar fora da caixa, eles também oferecem um prêmio em dinheiro atraente.

Porém, as pessoas hesitam em participar desses concursos. Alguns dos principais motivos estão listados abaixo:

  1. Eles olham para baixo em seu nível de habilidade, conhecimento e técnicas adquiridas.
  2. Independentemente do seu nível de habilidade, escolha o problema que oferece o maior prêmio em dinheiro.
  3. Eles não conseguem confundir seu nível de habilidade com o nível de dificuldade do problema.

Acho que esse problema vem do próprio Kaggle. Kaggle.com não fornece nenhuma informação que possa ajudar as pessoas a escolher o problema mais apropriado que corresponda ao seu conjunto de habilidades.. Como resultado, tornou-se uma tarefa árdua para iniciantes / intermediários decidem qual é o problema certo para começar.

O que você aprenderá neste artigo?

Neste artigo, abrimos o impasse para escolher o problema kaggle apropriado de acordo com seu conjunto de habilidades, ferramentas e técnicas. Aqui, ilustramos cada problema Kaggle com o nível de dificuldade e o nível de habilidades necessárias para resolvê-lo.

Na última parte, definimos a abordagem correta para resolver um problema kaggle para os seguintes casos:

Caso 1: eu tenho experiência em codificação, mas eu sou novo no aprendizado de máquina.

Caso 2: Estou no setor de análise há mais de 2 anos, mas não estou confortável com R / Pitão

Caso 3: Sou bom com codificação e aprendizado de máquina, Eu preciso de algo desafiador para trabalhar

Caso 4: Sou um novato tanto no aprendizado de máquina quanto na linguagem de codificação, mas quero aprender

Lista de problemas do Kaggle

1. Titânico: aprendizado de máquina de desastres

objetivo: Um problema clássico e popular para começar sua jornada com o aprendizado de máquina. Você recebe um conjunto de atributos dos passageiros a bordo e precisa prever quem teria sobrevivido após o naufrágio do navio.

titanic-4547234

Nível de dificuldade

uma) Habilidades de aprendizado de máquina: fácil

b) Habilidades de codificação: fácil

c) Adquira Habilidades de Maestria: fácil

d) Tutoriais disponíveis – Muito completo

2. Primeiro passo com Julia

objetivo: Este é um problema para identificar caracteres na imagem do Google Street View usando uma ferramenta futura, Julia.

julia-5605648

Nível de dificuldade em cada um dos atributos:

uma) Habilidades de aprendizado de máquina: fácil

b) Habilidades de codificação – Metade

c) Adquira Habilidades de Maestria: fácil

d) Tutorial disponível – Cheio

3. Reconhecedor de Dígitos

objetivo: Você recebe dados com pixels em dígitos manuscritos e você precisa dizer de forma conclusiva qual é o dígito. Este é um problema clássico para o modelo de Markov Latente.

Nível de dificuldade em cada um dos atributos:

uma) Habilidades de aprendizado de máquina: metade

b) Habilidades de codificação – Metade

c) Adquira Habilidades de Maestria: fácil

d) Tutorial disponível: disponível, mas sem empunhadura

4. Saco de palavras com saco de pipoca

objetivo: Você recebe uma série de resenhas de filmes e precisa encontrar o sentimento oculto nesta declaração. O objetivo desta declaração de problema é apresentar a você o pacote do Google – Word2Vec.

É um pacote fantástico que ajuda você a converter palavras em um espaço dimensional finito. Desta forma, podemos construir analogias apenas olhando para o vetor. Um exemplo muito simples é que seu algoritmo pode gerar analogias como: Rey – Cara + Mulher vai te dar rainha.

pipoca-3400048

Nível de dificuldade em cada um dos atributos:

uma) Habilidades de aprendizado de máquina – Duro

b) Habilidades de codificação – Metade

c) Adquira Habilidades de Maestria: fácil

d) Tutorial disponível – Disponível, mas sem empunhadura

5. Remoção de ruído de documento sujo

objetivo: Você pode estar familiarizado com uma tecnologia conhecida como OCR. Basta converter documentos manuscritos em documentos digitais. Porém, Não é perfeito. Seu trabalho aqui é usar o aprendizado de máquina para torná-lo perfeito..

documentos-3979703

Nível de dificuldade em cada um dos atributos:

uma) Habilidades de aprendizado de máquina – Duro

b) Habilidades de codificação – Duro

c) Adquira Habilidades de Maestria: duro

d) Tutorial disponível – Não

6. Classificação de crime de São Francisco

objetivo: Prever a categoria de crimes ocorridos na cidade pela baía.

san-francisco-4992579

Nível de dificuldade em cada um dos atributos:

uma) Habilidades de aprendizado de máquina: muito difícil

b) Habilidades de codificação: muito difícil

c) Adquira Habilidades de Maestria: duro

d) Tutorial disponível – Não

7. Clima / localização de previsão de trajetória de táxi

objetivo: Existem dois problemas com base nos mesmos conjuntos de dados. Você recebe um motorista de táxi e deve prever para onde o táxi está indo ou quanto tempo levará para completar a viagem.

taxi-1-6609405

Nível de dificuldade em cada um dos atributos:

uma) Habilidades de aprendizado de máquina: fácil

b) Habilidades de codificação – Duro

c) Adquira Habilidades de Maestria: metade

d) Tutorial disponível: alguns códigos de referência disponíveis

8. Recrutamento no Facebook: humano o bot

objetivo: Se você tiver problemas para entender um novo domínio, deve resolver isso. Você recebe os detalhes da licitação e deve classificar o licitante como bot ou humano. Esta é a fonte de dados mais rica disponível de todos os problemas do Kaggle.

fb-7912754

Nível de dificuldade em cada um dos atributos:

uma) Habilidades de aprendizado de máquina: metade

b) Habilidades de codificação – Metade

c) Adquira Habilidades de Maestria: metade

d) Tutorial disponível: nenhum suporte disponível porque é um concurso de recrutamento

Observação: Não cobri competições Kaggle que oferecem prêmios em dinheiro neste artigo., uma vez que estão todos relacionados a um domínio específico. Deixe-me saber sua opinião sobre eles na seção de comentários abaixo..

Agora vamos procurar a abordagem certa para pessoas com diferentes conjuntos de habilidades em diferentes fases da vida para começar sua jornada Kaggle!!

Caso 1: eu tenho experiência em codificação, mas eu sou novo no aprendizado de máquina.

Paso 1: O primeiro problema do Kaggle que você precisa resolver é: Previsão de trajetória de táxi. O motivo é que o problema tem um conjunto de dados complexo que inclui um formato JSON em uma das colunas que indica o conjunto de coordenadas que o táxi visitou. Se você pode quebrar isso, obter uma estimativa inicial da meta ou do tempo alvo não precisa de aprendizado de máquina. Portanto, você pode usar sua força de codificação para encontrar seu valor neste setor.

Paso 2: Seu próximo passo deve ser dar: Titânico. A razão é que agora você vai entender como lidar com conjuntos de dados complexos. Portanto, agora é o momento perfeito para tentar resolver problemas puros de aprendizado de máquina. Com abundância de soluções / scripts disponíveis, será capaz de construir uma boa solução.

Paso 3: Agora você está pronto para algo ótimo. Experimente o recrutamento no Facebook. Isso ajudará você a avaliar como entender o domínio pode ajudá-lo a aproveitar ao máximo o aprendizado de máquina..

Depois de colocar todas essas peças no lugar, você pode testar qualquer problema no Kaggle.

Caso 2: Estou no setor de análise há mais de 2 anos, mas não estou confortável com R / Pitão

Paso 1: Você deve começar tirando uma foto no Titanic. A razão é que você já sabe como construir um algoritmo preditivo. Agora você deve se esforçar para aprender linguagens como R e Python. Com um grande número de soluções / scripts disponíveis, você será capaz de construir diferentes tipos de modelos em R e Python. Este problema também ajudará você a entender alguns algoritmos avançados de aprendizado de máquina.

Paso 2: A próxima etapa deve ser o recrutamento no Facebook. A razão é que, dada a simplicidade da estrutura de dados e a riqueza do conteúdo, você será capaz de juntar tabelas corretas e fazer um algoritmo preditivo neste. Isso também ajudará você a avaliar como entender o domínio pode ajudá-lo a aproveitar ao máximo o aprendizado de máquina..

Sugestões: Agora você está pronto para algo muito diferente da sua zona de conforto.. Leia problemas como exames de retinopatia diabética, Cliques em Anúncios de Contexto Avinto, Classificação dos crimes e encontre o domínio de seu interesse. Agora tente aplicar o que você aprendeu até agora.

Agora é a hora de tentar algo mais complexo para codificar. Tente fazer uma previsão da trajetória do táxi ou excluir documentos sujos. Depois de colocar todas essas peças no lugar, agora você pode tentar qualquer problema no Kaggle.

Caso 3: Sou bom com codificação e aprendizado de máquina, Eu preciso de algo desafiador para trabalhar

Paso 1: Você tem muitas opções no Kaggle. A primeira opção é dominar um novo idioma como Julia. Você pode começar com o primeiro passo com Julia. O motivo é que isso lhe dará mais exposição ao que Julia pode fazer além de Python ou R.

Paso 2: A segunda opção é desenvolver habilidades com domínio adicional. Você pode tentar o Contexto Avito, Relevância da pesquisa no Facebook – Humano vs. Robô.

Caso 4: Sou um novato tanto no aprendizado de máquina quanto na linguagem de codificação, mas quero aprender

Paso 1: Você deve começar sua jornada kaggle com o Titanic. A razão é que o primeiro passo para você é aprender linguagens como R e Python. Com um grande número de soluções / scripts disponíveis, você será capaz de construir diferentes tipos de modelos em R e Python. Este problema também ajudará você a entender alguns algoritmos de aprendizado de máquina.

Paso 2: Então eu deveria levar: Recrutamento no Facebook. A razão é que, dada a simplicidade da estrutura de dados e a riqueza do conteúdo, você será capaz de juntar tabelas corretas e fazer um algoritmo preditivo neste. Isso também ajudará você a avaliar como entender o domínio pode ajudá-lo a aproveitar ao máximo o aprendizado de máquina..

Assim que terminar com estes, pode resolver os problemas com base no seu interesse.

Alguns truques para ser uma competição justa em Kaggle

Esta não é uma lista completa de hacks, mas é para você ter um bom começo. A lista completa merece uma nova postagem por conta própria:

  1. Certifique-se de enviar uma solução (até mesmo o envio de amostra fará este trabalho) antes da última data de registro, se você quiser participar do concurso no futuro.
  2. Entenda o domínio antes de passar para os dados. Por exemplo, em bot contra humano, você precisa entender como funciona a plataforma de licitação online antes de iniciar a jornada com os dados.
  3. Crie seu próprio algoritmo de avaliação que pode imitar a pontuação do teste Kaggle. Uma validação cruzada simples de 10 horários geralmente funcionam bem.
  4. Tente extrair o máximo de características possíveis dos dados do trem; a engenharia de recursos é geralmente a parte que o empurra do percentil 40 acima do percentil 10 superior.
  5. Em geral, um único modelo não o coloca no topo 10. Você precisa fazer muitos modelos e montá-los. Podem ser vários modelos com diferentes algoritmos ou diferentes conjuntos de variáveis.

Notas finais

Existem vários benefícios que percebi depois de trabalhar nos problemas do Kaggle. Aprendi R / Python em movimento. Eu acho que é a melhor maneira de aprender o mesmo. O que mais, interagir com pessoas do fórum de discussão sobre vários problemas ajudará você a obter informações mais detalhadas sobre aprendizado de máquina e domínio.

Neste artigo, Ilustramos vários problemas do Kaggle e classificamos seus atributos essenciais no nível de dificuldade. Também lidamos com vários casos da vida real e obtivemos a abordagem certa para nos envolvermos no Kaggle.

Você já esteve envolvido em algum problema do Kaggle? Você viu algum benefício significativo em fazer o mesmo? Deixe-nos saber sua opinião sobre este guia na seção de comentários abaixo..

Se você gostou do que acabou de ler e deseja continuar seu aprendizado sobre análise, inscreva-se em nossos e-mails, Siga-nos no Twitter ou como o nosso página do Facebook.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.