Conjuntos de dados Kaggle | Principais conjuntos de dados Kaggle a serem praticados por cientistas de dados

Conteúdo

Introdução

65134art-8450680

Kaggle tem muitos recursos online para ajudar alguém a começar com ciência de dados. Possui milhares de conjuntos de dados, concursos de ciência de dados, envios de código em conjuntos de dados, chat da comunidade e até cursos para iniciantes. O usuário também obtém um perfil de usuário público que pode ser compartilhado, que rastreia e exibe todas as contribuições e realizações do usuário.

O perfil do usuário mostra quem o usuário segue, quem segue o usuário, Código de usuário, qualquer conjunto de dados do usuário e outras informações. Existem também vários métodos de classificação. O perfil kaggle serve como uma ótima maneira de criar projetos online compartilháveis ​​e mostrar seu talento.. Como seu perfil HackerEarth ou Code Chef mostra suas habilidades competitivas de codificação, seu perfil kaggle serve como uma forma de expressar suas habilidades de ciência de dados.

Para construir um bom perfil kaggle, você precisa trabalhar com os dados e criar notebooks Python ou R de alta qualidade na forma de projetos e contar uma história por meio dos dados. Vários gráficos de dados podem ser adicionados, escreva vendas e treine modelos em Kaggle Notebooks. Você pode fazer muitas coisas com eles. E a melhor coisa sobre Kaggle Notebooks é que: o usuário não precisa instalar Python ou R em seu computador para usá-lo. Quase todas as principais bibliotecas podem ser importadas diretamente. Kaggle também fornece TPUs gratuitamente. Unidades de processamento de tensor (TPU) son aceleradores de hardware especializados en tareas de aprendizado profundo. Eles são compatíveis com Tensorflow 2.1 tanto por meio da API de alto nível Keras quanto, em um nível inferior, en modelos que utilizan un ciclo de Treinamento personalizado.

Portanto, trabalhar com conjuntos de dados no Kaggle é muito fácil e conveniente e todos os iniciantes devem tentar o Kaggle para desenvolver algumas habilidades e conhecimentos.

Aqui estão alguns conjuntos de dados que todo iniciante pode experimentar e criar projetos incríveis:

1. Filmes e programas de TV da Netflix

51509ntflix-8793984

Quem não gosta de Netflix? Este conjunto de dados kaggle tem programas de TV e filmes disponíveis no Netflix. Um projeto de análise de dados exploratórios de boa qualidade pode ser criado usando este conjunto de dados. Com este conjunto de dados, Você pode descobrir: que tipo de conteúdo é produzido em qual país, identificar conteúdo semelhante a partir da descrição e tarefas muito mais interessantes.

  1. Link para o conjunto de dados

Meus cadernos favoritos

  1. EDA no laptop Netflix
  2. Datos de Netflix: caderno de análise e visualização

2. Desempenho do aluno nas provas

85211exam-8403279

Esses dados são baseados na demografia da população. Os dados contêm várias características, como o tipo de comida que o aluno recebe, o nível de preparação para o teste, nível de educação dos pais e desempenho do aluno em matemática, leitura e escritura. Com os dados, vários tipos de problemas de regressão e classificação podem ser resolvidos. Também pode ser usado para descobrir quais fatores podem levar a melhores pontuações em testes.. Em geral, será interessante trabalhar nisso.

  1. Link para o conjunto de dados

Meus cadernos favoritos

  1. Desempenho do aluno no livro de teste

3. Classificação de preços para celular

84146telefone-3523780

O conjunto de dados Mobile Price Ranking tem muitas características de dados e uma grande variedade de dados que seguem vários padrões de distribuição. Existem características categóricas, dados numéricos contínuos e até dados binários. Um grande número de padrões de dados garante que seja possível trabalhar com uma grande quantidade de dados e lidar com vários cálculos matemáticos e estatísticas..

  1. Link para o conjunto de dados

Meus cadernos favoritos

  1. Caderno de previsão de preços para dispositivos móveis
  2. Previsão de preço móvel n. ° 2

4. Imagens de gatos e cachorros

84974cat_and_dog-2996462

O clássico conjunto de dados de classificação Dog vs Cat. Existem muitas imagens de cães e gatos que podem ser usadas para treinar modelos e fazer previsões.. Este conjunto de dados é essencial para os alunos que estão tentando entrar no processamento de imagens ou visão computacional. O que mais, você pode ver muitas fotos fofas de cães e gatos.

  1. Link para o conjunto de dados

Meus cadernos favoritos

  1. Caderno de classificação de imagens de cães e gatos

5. Comentários do Trip Advisor Hotel

90269trip-9098233

Os hotéis são uma parte importante das viagens e férias. Avaliações de hotéis são dados de texto, que pode ser processado usando métodos de processamento de linguagem natural (PNL). Há mais de 20.000 avaliações de hotéis seguidas por uma avaliação com estrelas de 1 uma 5. O conjunto de dados pode ser usado para treinar um modelo de classificação para determinar a classificação por estrelas para uma determinada revisão de teste.. Pode ser um bom trampolim para entrar na análise de texto e PNL.

  1. Link para o conjunto de dados

Meus cadernos favoritos

  1. Caderno de previsão de opinião de hotéis

6. Mercado Habitacional de Melbourne

16194melb-8955601

O conjunto de dados do mercado imobiliário de Melbourne é um recurso de aprendizado favorito de todos os tempos para iniciantes em ciência de dados. Tem muitos recursos: dados numéricos, categórico e até geográfico (latitude e longitude). Por tanto, também pode ser usado para análise geoespacial e outros problemas de agrupamento. de forma similar, tarefas de regressão e classificação também podem ser realizadas neste conjunto de dados. Existem também vários exemplos de código e guias disponíveis para este conjunto de dados, tornando-o o conjunto de dados ideal para alunos.

  1. Link para o conjunto de dados

Meus cadernos favoritos

  1. Melbourne || Caderno de análise abrangente do mercado imobiliário
  2. Caderno de análise abrangente do mercado imobiliário de Melboune

7. Modelagem de abandono

15848churn-9648912

A taxa de desligamento de funcionários indica a frequência com que os funcionários da empresa deixaram seus empregos em um determinado período. É um aspecto importante da Análise de RH e estratégia corporativa. Os dados são características da vida real, como idade, o genero, tempo gasto com a empresa e outras características importantes. Os dados podem ser usados ​​para criar um modelo de classificação e explorar padrões interessantes nos dados..

  1. Link para o conjunto de dados

Meus cadernos favoritos

  1. Caderno de classificação de abandono

8. Amazon Top 50 livros mais vendidos 2009-2019

82787livro-9936496

É sempre interessante trabalhar com um conjunto de dados de vendas e obter informações. Os recursos incluem classificação de usuários da Amazon, o número de comentários na Amazon e outros. Este conjunto de dados pode ser usado para criar projetos de EDA e também criar análises de regressão. Pode ser usado para criar um estudo de caso interessante sobre o sucesso dos livros mais vendidos.

  1. Link para o conjunto de dados

Meus cadernos favoritos

  1. Caderno do livro mais vendido da Amazon

9. Conjunto de dados pessoais de despesas médicas

24160hosp-5591675

Este conjunto de dados é usado para fazer previsões de seguro com base em várias funções. Recursos interessantes incluem IMC, o número de filhos e se a pessoa é fumante ou não. Também está incluído na categoria de dados demográficos e pode ser usado para exibir uma análise das despesas de seguro de um indivíduo.

  1. Link para o conjunto de dados

Meus cadernos favoritos

  1. Acusações do paciente || Bloco de notas de agrupamento e regressão

10. Resultados da pesquisa de exoplanetas Kepler

47296space-8839848

Kepler tinha verificado 1284 novos exoplanetas em maio 2016. Em outubro 2017, há mais de 3000 Total de exoplanetas confirmados (usando todos os métodos de detecção, incluindo terrestre). O telescópio ainda está ativo e continua a coletar novos dados em sua missão estendida..

Os dados têm várias características, tudo isso pode ser um pouco difícil de entender. Guia explicado detalhado pode ser encontrado aqui.

  1. Link para o conjunto de dados

Notas finais

Existem muitos laptops neste conjunto de dados, pode ser um pouco difícil para iniciantes, mas você pode trabalhar muito neste conjunto de dados.

Existem muitos outros conjuntos de dados e desafios disponíveis no Kaggle, com o qual iniciantes podem aprender. Seu perfil Kaggle também pode ser usado como um meio de expressar suas habilidades de ciência de dados..

A mídia mostrada neste artigo sobre conjuntos de dados Kaggle não é propriedade da DataPeaker e é usada a critério do autor.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.