Set di dati Kaggle | I migliori set di dati Kaggle da mettere in pratica per i data scientist

Contenuti

introduzione

65134arte-8450680

Kaggle ha molte risorse online per aiutare a iniziare con la scienza dei dati. Ha migliaia di set di dati, concorsi di scienza dei dati, invii di codice nei set di dati, chat della community e persino corsi per principianti. L'utente ottiene anche un profilo utente pubblico che può essere condiviso, che tiene traccia e visualizza tutti i contributi e i risultati degli utenti.

Il profilo utente mostra chi segue l'utente, chi segue l'utente, codice utente, qualsiasi insieme di dati utente e altre informazioni. Esistono anche diversi metodi di classificazione. Il profilo kaggle è un ottimo modo per creare progetti online condivisibili e mostrare il tuo talento.. Come se il tuo profilo HackerEarth o Code Chef mostrasse le tue abilità di programmazione competitive, il tuo profilo kaggle serve come un modo per esprimere le tue abilità di data science.

Per costruire un buon profilo Kaggle, devi lavorare sui dati e creare notebook Python o R di alta qualità sotto forma di progetti e raccontare una storia attraverso i dati. È possibile aggiungere più grafici di dati, scrivere vendite e addestrare modelli in Kaggle Notebooks. Puoi fare molte cose con loro. E la cosa migliore dei taccuini Kaggle è che: l'utente non ha bisogno di installare Python o R sul proprio computer per usarlo. Quasi tutte le principali librerie possono essere importate direttamente. Kaggle fornisce anche TPU gratuitamente. Unità di elaborazione del tensore (TPU) sono acceleratori hardware specializzati in apprendimento profondo. Sono compatibili con Tensorflow 2.1 sia tramite l'API di alto livello di Keras che, a un livello inferiore, nei modelli che utilizzano un addestramento personalizzato.

Perciò, lavorare con i set di dati in Kaggle è molto facile e conveniente e tutti i principianti dovrebbero provare Kaggle a sviluppare alcune abilità e conoscenze.

Ecco alcuni set di dati che ogni principiante può provare e creare progetti sorprendenti:

1. Film e programmi TV Netflix

51509ntflix-8793984

A chi non piace Netflix? Questo set di dati kaggle ha programmi TV e film disponibili su Netflix. Un progetto di analisi dei dati esplorativi di buona qualità può essere creato utilizzando questo set di dati. Con questo set di dati, puoi scoprirlo: che tipo di contenuto viene prodotto in quale paese, identificare contenuti simili dalla descrizione e compiti molto più interessanti.

  1. Collegamento al set di dati

I miei quaderni preferiti

  1. EDA su laptop Netflix
  2. Dati Netflix: quaderno di analisi e visualizzazione

2. Rendimento degli studenti agli esami

85211esame-8403279

Questi dati si basano sui dati demografici della popolazione. I dati contengono varie caratteristiche come il tipo di cibo che viene dato allo studente, il livello di preparazione al test, livello di istruzione dei genitori e rendimento degli studenti in matematica, Leggendo e scrivendo. Con i dati, possono essere risolti vari tipi di problemi di regressione e classificazione. Può anche essere usato per trovare quali fattori possono portare a punteggi migliori nei test.. Generalmente, sarà interessante lavorarci su.

  1. Collegamento al set di dati

I miei quaderni preferiti

  1. Prestazioni degli studenti nel libro di prova

3. Classificazione dei prezzi dei cellulari

84146telefono-3523780

Il set di dati Mobile Price Ranking ha molte caratteristiche dei dati e un'ampia varietà di dati che seguono vari modelli di distribuzione. Ci sono caratteristiche categoriche, dati numerici continui e persino dati binari. Un gran numero di modelli di dati garantisce la capacità di lavorare con una grande quantità di dati e di gestire vari calcoli matematici e statistiche..

  1. Collegamento al set di dati

I miei quaderni preferiti

  1. Blocco note per la previsione dei prezzi per dispositivi mobili
  2. Previsione dei prezzi per cellulari n. ° 2

4. Immagini di cani e gatti

84974gatto_e_cane-2996462

Il classico set di dati di classificazione Cane vs Gatto. Esistono molte immagini di cani e gatti che possono essere utilizzate per addestrare modelli e fare previsioni.. Questo set di dati è un must per gli studenti che cercano di entrare nell'elaborazione delle immagini o nella visione artificiale. Cosa c'è di più, puoi vedere molte foto carine di cani e gatti.

  1. Collegamento al set di dati

I miei quaderni preferiti

  1. Quaderno per selezionare le immagini di cani e gatti

5. Recensioni sugli hotel di Trip Advisor

90269viaggio-9098233

Gli hotel sono una parte importante dei viaggi e delle vacanze. Le recensioni degli hotel sono dati di testo, che possono essere elaborati utilizzando metodi di elaborazione del linguaggio naturale (PNL). C'è di più 20.000 recensioni di hotel seguite da una valutazione a stelle da 1 un 5. Il set di dati può essere utilizzato per addestrare un modello di valutazione per determinare la valutazione a stelle per una determinata revisione del test.. Può essere un buon trampolino di lancio per entrare nell'analisi del testo e nella PNL.

  1. Collegamento al set di dati

I miei quaderni preferiti

  1. Taccuino di previsione delle opinioni degli hotel

6. Mercato immobiliare di Melbourne

16194melb-8955601

Il Melbourne Housing Market Dataset è una risorsa di apprendimento preferita di tutti i tempi per i principianti della scienza dei dati. Ha molte caratteristiche: data numerica, categorico e persino geografico (latitudine e longitudine). Perciò, può essere utilizzato anche per l'analisi geospaziale e altri problemi di raggruppamento. Allo stesso modo, su questo set di dati possono essere eseguite anche attività di regressione e classificazione. Sono disponibili anche numerosi esempi di codice e guide per questo set di dati, rendendolo il set di dati ideale per gli studenti.

  1. Collegamento al set di dati

I miei quaderni preferiti

  1. Melbourne || Quaderno di analisi completo del mercato immobiliare
  2. Taccuino di analisi completa del mercato immobiliare di Melboune

7. Modellazione dell'abbandono

15848abbandono-9648912

Il tasso di abbandono dei dipendenti indica la frequenza con cui i dipendenti dell'azienda lasciano il lavoro entro un determinato periodo. È un aspetto importante dell'analisi delle risorse umane e della strategia aziendale. I dati sono caratteristiche della vita reale come l'età, il genere, tempo trascorso con l'azienda e altre caratteristiche importanti. I dati possono essere utilizzati per creare un modello di classificazione ed esplorare modelli interessanti nei dati..

  1. Collegamento al set di dati

I miei quaderni preferiti

  1. Quaderno di classificazione dell'abbandono

8. Amazon Top 50 libri più venduti 2009-2019

82787libro-9936496

È sempre interessante lavorare con un set di dati di vendita e ottenere informazioni. Le caratteristiche includono la valutazione degli utenti di Amazon, il numero di recensioni su Amazon e altri. Questo set di dati può essere utilizzato per creare progetti EDA e anche creare analisi di regressione. Può essere utilizzato per creare un caso di studio interessante sul successo dei libri più venduti.

  1. Collegamento al set di dati

I miei quaderni preferiti

  1. Notebook libro più venduto di Amazon

9. Set di dati personali delle spese mediche

24160hosp-5591675

Questo set di dati viene utilizzato per fare previsioni assicurative basate su varie funzioni. Le caratteristiche interessanti includono BMI, il numero di bambini e se la persona è un fumatore o no. È anche incluso nella categoria dei dati demografici e può essere utilizzato per visualizzare un'analisi delle spese assicurative di un individuo.

  1. Collegamento al set di dati

I miei quaderni preferiti

  1. Spese del paziente || Notebook di clustering e regressione

10. Risultati della ricerca sugli esopianeti di Keplero

47296spazio-8839848

Keplero aveva verificato 1284 nuovi esopianeti a maggio 2016. In ottobre 2017, c'è di più 3000 Totale esopianeti confermati (utilizzando tutti i metodi di rilevamento, compreso terrestre). Il telescopio è ancora attivo e continua a raccogliere nuovi dati sulla sua missione estesa..

I dati hanno diverse caratteristiche, tutto ciò può essere un po' difficile da capire. È possibile trovare una guida spiegata dettagliata qui.

  1. Collegamento al set di dati

Note finali

Ci sono molti laptop in questo set di dati, può essere un po' difficile per i principianti, ma puoi fare molto lavoro su questo set di dati.

Ci sono molti altri set di dati e sfide disponibili su Kaggle, da cui i principianti possono imparare. Il tuo profilo Kaggle può essere utilizzato anche come mezzo per esprimere le tue abilità di data science..

Il supporto mostrato in questo articolo sui set di dati Kaggle non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.