introduzione
Kaggle ha molte risorse online per aiutare a iniziare con la scienza dei dati. Ha migliaia di set di dati, concorsi di scienza dei dati, invii di codice nei set di dati, chat della community e persino corsi per principianti. L'utente ottiene anche un profilo utente pubblico che può essere condiviso, che tiene traccia e visualizza tutti i contributi e i risultati degli utenti.
Il profilo utente mostra chi segue l'utente, chi segue l'utente, codice utente, qualsiasi insieme di dati utente e altre informazioni. Esistono anche diversi metodi di classificazione. Il profilo kaggle è un ottimo modo per creare progetti online condivisibili e mostrare il tuo talento.. Come se il tuo profilo HackerEarth o Code Chef mostrasse le tue abilità di programmazione competitive, il tuo profilo kaggle serve come un modo per esprimere le tue abilità di data science.
Per costruire un buon profilo Kaggle, devi lavorare sui dati e creare notebook Python o R di alta qualità sotto forma di progetti e raccontare una storia attraverso i dati. È possibile aggiungere più grafici di dati, scrivere vendite e addestrare modelli in Kaggle Notebooks. Puoi fare molte cose con loro. E la cosa migliore dei taccuini Kaggle è che: l'utente non ha bisogno di installare Python o R sul proprio computer per usarlo. Quasi tutte le principali librerie possono essere importate direttamente. Kaggle fornisce anche TPU gratuitamente. Unità di elaborazione del tensore (TPU) sono acceleratori hardware specializzati in apprendimento profondoApprendimento profondo, Una sottodisciplina dell'intelligenza artificiale, si affida a reti neurali artificiali per analizzare ed elaborare grandi volumi di dati. Questa tecnica consente alle macchine di apprendere modelli ed eseguire compiti complessi, come il riconoscimento vocale e la visione artificiale. La sua capacità di migliorare continuamente man mano che vengono forniti più dati lo rende uno strumento chiave in vari settori, dalla salute.... Sono compatibili con Tensorflow 2.1 sia tramite l'API di alto livello di Keras che, a un livello inferiore, nei modelli che utilizzano un addestramentoLa formazione è un processo sistematico volto a migliorare le competenze, conoscenze o abilità fisiche. Viene applicato in vari ambiti, come lo sport, Formazione e sviluppo professionale. Un programma di allenamento efficace include la pianificazione degli obiettivi, Pratica regolare e valutazione dei progressi. L'adattamento alle esigenze individuali e la motivazione sono fattori chiave per ottenere risultati di successo e sostenibili in qualsiasi disciplina.... personalizzato.
Perciò, lavorare con i set di dati in Kaggle è molto facile e conveniente e tutti i principianti dovrebbero provare Kaggle a sviluppare alcune abilità e conoscenze.
Ecco alcuni set di dati che ogni principiante può provare e creare progetti sorprendenti:
1. Film e programmi TV Netflix
A chi non piace Netflix? Questo set di dati kaggle ha programmi TV e film disponibili su Netflix. Un progetto di analisi dei dati esplorativi di buona qualità può essere creato utilizzando questo set di dati. Con questo set di dati, puoi scoprirlo: che tipo di contenuto viene prodotto in quale paese, identificare contenuti simili dalla descrizione e compiti molto più interessanti.
I miei quaderni preferiti
2. Rendimento degli studenti agli esami
Questi dati si basano sui dati demografici della popolazione. I dati contengono varie caratteristiche come il tipo di cibo che viene dato allo studente, il livello di preparazione al test, livello di istruzione dei genitori e rendimento degli studenti in matematica, Leggendo e scrivendo. Con i dati, possono essere risolti vari tipi di problemi di regressione e classificazione. Può anche essere usato per trovare quali fattori possono portare a punteggi migliori nei test.. Generalmente, sarà interessante lavorarci su.
I miei quaderni preferiti
3. Classificazione dei prezzi dei cellulari
Il set di dati Mobile Price Ranking ha molte caratteristiche dei dati e un'ampia varietà di dati che seguono vari modelli di distribuzione. Ci sono caratteristiche categoriche, dati numerici continui e persino dati binari. Un gran numero di modelli di dati garantisce la capacità di lavorare con una grande quantità di dati e di gestire vari calcoli matematici e statistiche..
I miei quaderni preferiti
- Blocco note per la previsione dei prezzi per dispositivi mobili
- Previsione dei prezzi per cellulari n. ° 2
4. Immagini di cani e gatti
Il classico set di dati di classificazione Cane vs Gatto. Esistono molte immagini di cani e gatti che possono essere utilizzate per addestrare modelli e fare previsioni.. Questo set di dati è un must per gli studenti che cercano di entrare nell'elaborazione delle immagini o nella visione artificiale. Cosa c'è di più, puoi vedere molte foto carine di cani e gatti.
I miei quaderni preferiti
5. Recensioni sugli hotel di Trip Advisor
Gli hotel sono una parte importante dei viaggi e delle vacanze. Le recensioni degli hotel sono dati di testo, che possono essere elaborati utilizzando metodi di elaborazione del linguaggio naturale (PNL). C'è di più 20.000 recensioni di hotel seguite da una valutazione a stelle da 1 un 5. Il set di dati può essere utilizzato per addestrare un modello di valutazione per determinare la valutazione a stelle per una determinata revisione del test.. Può essere un buon trampolino di lancio per entrare nell'analisi del testo e nella PNL.
I miei quaderni preferiti
6. Mercato immobiliare di Melbourne
Il Melbourne Housing Market Dataset è una risorsa di apprendimento preferita di tutti i tempi per i principianti della scienza dei dati. Ha molte caratteristiche: data numerica, categorico e persino geografico (latitudine e longitudine). Perciò, può essere utilizzato anche per l'analisi geospaziale e altri problemi di raggruppamento. Allo stesso modo, su questo set di dati possono essere eseguite anche attività di regressione e classificazione. Sono disponibili anche numerosi esempi di codice e guide per questo set di dati, rendendolo il set di dati ideale per gli studenti.
I miei quaderni preferiti
- Melbourne || Quaderno di analisi completo del mercato immobiliare
- Taccuino di analisi completa del mercato immobiliare di Melboune
7. Modellazione dell'abbandono
Il tasso di abbandono dei dipendenti indica la frequenza con cui i dipendenti dell'azienda lasciano il lavoro entro un determinato periodo. È un aspetto importante dell'analisi delle risorse umane e della strategia aziendale. I dati sono caratteristiche della vita reale come l'età, il genere, tempo trascorso con l'azienda e altre caratteristiche importanti. I dati possono essere utilizzati per creare un modello di classificazione ed esplorare modelli interessanti nei dati..
I miei quaderni preferiti
8. Amazon Top 50 libri più venduti 2009-2019
È sempre interessante lavorare con un set di dati di vendita e ottenere informazioni. Le caratteristiche includono la valutazione degli utenti di Amazon, il numero di recensioni su Amazon e altri. Questo set di dati può essere utilizzato per creare progetti EDA e anche creare analisi di regressione. Può essere utilizzato per creare un caso di studio interessante sul successo dei libri più venduti.
I miei quaderni preferiti
9. Set di dati personali delle spese mediche
Questo set di dati viene utilizzato per fare previsioni assicurative basate su varie funzioni. Le caratteristiche interessanti includono BMI, il numero di bambini e se la persona è un fumatore o no. È anche incluso nella categoria dei dati demografici e può essere utilizzato per visualizzare un'analisi delle spese assicurative di un individuo.
I miei quaderni preferiti
10. Risultati della ricerca sugli esopianeti di Keplero
Keplero aveva verificato 1284 nuovi esopianeti a maggio 2016. In ottobre 2017, c'è di più 3000 Totale esopianeti confermati (utilizzando tutti i metodi di rilevamento, compreso terrestre). Il telescopio è ancora attivo e continua a raccogliere nuovi dati sulla sua missione estesa..
I dati hanno diverse caratteristiche, tutto ciò può essere un po' difficile da capire. È possibile trovare una guida spiegata dettagliata qui.
Note finali
Ci sono molti laptop in questo set di dati, può essere un po' difficile per i principianti, ma puoi fare molto lavoro su questo set di dati.
Ci sono molti altri set di dati e sfide disponibili su Kaggle, da cui i principianti possono imparare. Il tuo profilo Kaggle può essere utilizzato anche come mezzo per esprimere le tue abilità di data science..
Il supporto mostrato in questo articolo sui set di dati Kaggle non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.