Começando com Kaggle | O primeiro olhar para Kaggle

Conteúdo

Este artigo foi publicado como parte do Data Science Blogathon

Introdução

Cada carreira atual precisa ter uma comunidade, um grupo de pessoas com quem podemos falar sobre trabalho, os erros, ideias e aprender. Kaggle é a maior e mais popular comunidade de ciência de dados do mundo. Ter uma comunidade como esta nos ajuda a sentir que "pertencemos", que é um dos sentimentos cruciais para nossa interação social e nossa saúde.

Neste artigo, veremos o Kaggle como uma comunidade completa e o Kaggle como uma plataforma: todas as suas diferentes ferramentas, serviços e recursos disponíveis para que possamos aprender o mesmo que ciência de dados prática.

Vamos ver a interface que obtemos quando visitamos Kaggle pela primeira vez.

56769screenshot20357-4251898

Antes de começar a usar o Kaggle, precisamos criar uma conta e então fazer o login, você pode ver as duas opções no canto superior direito. Quando eu terminar com isso, isso é o que pode parecer.

90248screenshot20358-2029611

Algumas das coisas visíveis aqui podem ser diferentes para você porque a interface é personalizada com a forma como usei o Kaggle até agora, desde o momento em que me inscrevi.

Navbar e tudo o que temos à nossa disposição no Kaggle:

62386screenshot20360-3091979

Assim que clicar em 'mais', essas são todas as coisas que posso acessar de minha conta Kaggle.

75241screenshot20361-3319797

Na minha opinião, existem 4 coisas importantes que fazem Kaggle “O MELHOR”.

1. Cursos e certificados gratuitos disponíveis

Existem muitos cursos disponíveis em vários domínios de aprendizado de máquina e ciência de dados. Não apenas cursos estão disponíveis, depois de cada lição, mas também há cadernos de exercícios (Treinamento) disponível para se familiarizar com o assunto. Para obter o seu certificado Kaggle grátis, é necessário completar todas as tarefas e exercícios.

53223screenshot20362-7878913
20483screenshot20363-9160728
44530screenshot20364-3094428

Existem mais alguns cursos, mas através disso, Eu queria mostrar a você que há uma diversidade de tópicos nesses cursos que você não precisa ir a lugar nenhum, a qualquer momento para se sentir perdido em uma questão ou problema, obtenha ajuda daqui.

Deixe-me mostrar como são esses cursos com um exemplo:

59463screenshot20367-8543587
48640screenshot20368-7917057

No final de cada curso, há uma lição adicional, que é diferente em termos de conteúdo, mas semelhante ao caso de uso e compreensão do curso. Eles incluem principalmente alguns temas famosos e / ou poderoso. Aqui temos AutoML (de Google) para automatizar o aprendizado de máquina.

2. Uma enorme coleção de conjuntos de dados disponíveis publicamente / contribuiu para a prática / trabalhar

Para qualquer ciência de dados, aprendizado de máquina ou tarefa de aprendizado profundo, precisamos de dados e muitos deles na maioria das vezes. Em vez de navegar em sites diferentes para diferentes tipos / tamanhos de conjuntos de dados, O Kaggle fornece um lugar comum para uma grande coleção de todos esses conjuntos de dados. Você pode usá-los com um clique. Eles são extremamente fáceis de usar.

29028screenshot20369-8522682
32956screenshot20370-9281940

Depois de clicar “Conjuntos de dados” na barra de navegação, Isso é o que você vai ver. Você pode pesquisar um conjunto de dados específico, importar / contribua com seu próprio conjunto de dados para a comunidade ou estude ou comece a trabalhar em um conjunto de dados, mostrado nesta página. (Conjuntos de dados de tendência, Conjuntos de dados populares, Conjuntos de dados visualizados recentemente)

Para demonstração, Vou procurar um conjunto de dados específico (“conjunto de dados de manchas solares”). Vamos ver como fica.

29789screenshot20371-7931344

O número na seleção vermelha é o número de votos positivos que as pessoas deram, para a opção mais relevante / eu gosto. Vamos explorar e ver esse conjunto de dados em detalhes.

Há muitas coisas que podemos usar para descobrir mais sobre esses dados e começar a trabalhar imediatamente.

  • Você pode baixar o conjunto de dados,
  • criar um novo Bloco de anotações Kaggle com este conjunto de dados já carregado.
  • Alguns detalhes sobre as colunas nos dados.
  • Atividades envolvendo esses dados.
  • Por último, mas não menos importante, todos os blocos de anotações criados e compartilhados publicamente até o momento que usam esses dados.

3. Competências de ciência de dados / aprendizado de máquina / aprendizado profundo

Embora eu não tenha participado de nenhum deles, Adoro como concluímos uma edição em tempo real junto com a comunidade Kaggle e ganhamos incríveis prêmios em dinheiro (se participarmos dessa competição específica). Eu definitivamente quero participar em breve, Espero que as imagens te motivem. Não é necessário que apenas grandes empresas ou empresas ricas possam fazer isso. Voce tambem pode fazer isso. Existem certos protocolos que devem ser seguidos e voila, você tem sua própria competição hospedada.

79134screenshot20376-1388455
50413screenshot20377-9405335

Classifiquei a competição concluída até o momento com base no valor da recompensa. Olhe de perto.

4. Cadernos Kaggle (código)

Para qualquer tarefa relacionada à ciência de dados ou ciência da computação, temos que escrever pelo menos algum código. O Kaggle nos fornece seu próprio ambiente de Notebook com um certo limite de quanto podemos armazenar neles. (coletivamente por conta), quantas horas de GPU disponíveis e quantas horas de TPU disponíveis. Eles são totalmente integrados com todos os serviços Kaggle e podem ser usados ​​independentemente como qualquer outro ambiente de notebook (Datalore, Google Colab, Jupyter, etc.), o que significa que você pode usá-los para a sua prática, competições kaggle, cursos de Kaggle, analisando alguns Kaggle / ou conjuntos de dados não Kaggle e muitos mais. Você deve checá-los.

92661screenshot20378-7517554

Clicando naquele botão preto, crie o seu caderno ou abra o caderno de outra pessoa que deseja ler e aprender / comparar. Todos esses blocos de notas visíveis são explicitamente compartilhados publicamente, o que significa que seus blocos de notas não ficarão visíveis para ninguém, a menos que você decida fazê-lo.

Para mudar de CPU para GPU ou TPU, Siga isso:

72424screenshot20380-4251022

Estas são a maioria das opções funcionais disponíveis para você em relação a este laptop:

89069screenshot20381-3102904
62421screenshot20382-8573959

Vamos ver como usá-los com dados (importados / tirado diretamente do Kaggle / baixado do url, etc.) e dê os primeiros passos em suas atribuições de ciência de dados.

90089screenshot20383-7931089
93972screenshot20384-7494173

Aqui vou mostrar como usar esse conjunto de dados de “Manchas solares” o que vimos antes. Comece pesquisando.

48408screenshot20385-1494437
98343screenshot20386-1007680

Agora os dados estão carregados corretamente. A seleção na imagem acima é o diretório no qual está armazenado. Vamos ver um pouco pandas código sobre como importar o conjunto de dados.

44616screenshot20387-4312854

A última coisa que você pode fazer depois de concluir seu projeto / trabalho é compartilhá-lo com a comunidade no Kaggle. Este é um passo importante porque, compartilhando nossas ideias, nosso trabalho, expandimos os utilitários disponíveis para a comunidade e apoiamos uns aos outros. Nós crescemos graças aos outros.

À esquerda do grande botão azul no canto superior direito, você verá um “Compartilhado” botão. Clique nele e selecione Público no menu suspenso.

31300screenshot20388-7976762

Espero que tenha gostado do que viu neste guia e esteja ansioso para começar a usar o Kaggle.

Gargeya Sharma

B.Tech Computer Science 3er año
Especializado em ciência de dados e aprendizado profundo
Estagiário de cientistas de dados na Upswing Cognitive Hospitality Solutions
Para maiores informações, verifique minha página inicial do github

LinkedIn GitHub

A mídia mostrada neste artigo não é propriedade da DataPeaker e é usada a critério do autor.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.