7 progetti di data science open source

Contenuti

Panoramica

  • I progetti di data science open source aggiungono molto valore al tuo curriculum e ti aiutano a distinguerti in un colloquio
  • qui c'è 7 progetti di data science open source su cui dovresti lavorare questo mese

introduzione

Ti darò alcuni consigli che avrei voluto che qualcuno mi avesse dato quando ho iniziato la mia carriera nella scienza dei dati.. Quando stavo percorrendo il viaggio pieno di ostacoli attraverso gli stagni della scienza dei dati, Ho avuto una grande lotta prima di ottenere il mio primo ruolo.. Aveva tutte le qualifiche (o così pensavo) ma qualcosa sembrava sbagliato.

Quel divario tra ciò che ho portato in tavola e ciò che l'intervistatore si aspettava era l'esperienza in progetti di data science..

I progetti di data science aggiungono molto valore al tuo curriculum, soprattutto se sei un principiante. La maggior parte dei nuovi arrivati ​​avrà certificazioni, ma l'aggiunta di progetti di data science open source ti darà un vantaggio significativo rispetto alla concorrenza. E credimi, ci sono un numero impressionante di progetti di data science open source per te.

open_source_projects_data_science-9781122

Qui, Ho messo insieme un elenco dei migliori progetti di data science open source che sono stati creati o lanciati a giugno. Questo fa parte della mia serie di progetti mensili in cui presento i migliori progetti di data science open source su GitHub.

Se vuoi vedere i progetti precedenti, Li ho raccolti sotto forma di corso gratuito. Sono strutturati per dominio (progetti di visione artificiale, Progetti di PNL, eccetera.) così puoi concentrarti sul progetto che desideri. E se sei nuovo su GitHub, assicurati di essere iscritto a questo corso introduttivo gratuito su Git e GitHub.

Progetti di data science open source per migliorare il tuo curriculum

github-6003811

Ho diviso i progetti in tre categorie in base al loro dominio:

  • Apprendimento automatico
  • Visione computerizzata
  • Altri progetti di data science open source, compreso un impressionante set di dati

Diamo un'occhiata a ciascuna categoria singolarmente.

Progetti di machine learning open source

Qui è dove otterrai il terreno di apprendimento automatico.. Qui tratteremo tre utili progetti open source relativi al machine learning.. Puoi scegliere un progetto in base ai tuoi interessi o provarli tutti. Ho cercato di mantenerli il più diversificati possibile in modo che tu possa vedere un progetto sui documenti di machine learning e un altro sulla creazione di pipeline di machine learning.

Se stai cercando una guida o sei nuovo in questo campo, Ti indirizzerò ad alcune utili risorse di apprendimento:

Leggere articoli di ricerca sull'apprendimento automatico è una prospettiva piuttosto schiacciante per la maggior parte dei professionisti., molto meno per i principianti. Gli scienziati dei dati e i ricercatori di machine learning tendono a scrivere articoli estremamente tecnici che anche gli esperti hanno difficoltà a decodificare.. In realtà, questo è uno dei maggiori punti deboli nel nostro campo.

Perciò, ogni sforzo per rompere la complessità è sempre il benvenuto. Questo utile progetto è una raccolta di articoli su data science e machine learning “con illustrazioni, annotazioni e brevi spiegazioni di parole chiave tecniche, termini e studi precedenti che facilitano la lettura dell'articolo e l'idea principale”.

Questo progetto era open source su GitHub la scorsa settimana, quindi viene aggiornato regolarmente. A quest'ora, possiamo già vedere alcuni articoli lì in modo da poterli rivedere e avere un'idea di come sono state fatte le annotazioni. Amo particolarmente l'annotazione YOLOv1:

yolov1_data_science_project-9777268

Molto bello! Vai avanti ed esplora questo e gli altri documenti. C'è molto da imparare!

Questo è un progetto piuttosto interessante per chiunque abbia un po' di conoscenza della scienza dei dati.

neoml_data_science_project-8321627

NeoML è un framework di apprendimento automatico completo che ci consente di creare, addestrare e implementare modelli di machine learning. In sintesi, possiamo creare una pipeline di machine learning end-to-end senza il fastidio di spendere molti soldi in soluzioni pronte all'uso.

Gli scienziati dei dati e gli ingegneri dei dati possono utilizzarlo per la visione artificiale e le attività di elaborazione del linguaggio naturale (PNL), come pre-elaborazione delle immagini, classificazione, analisi della progettazione del documento, OCR ed estrazione dati da documenti strutturati e non strutturati.

Ecco la funzionalità chiave di NeoML che ho preso dal loro repository GitHub:

  • Reti neurali compatibili con più di 100 tipi di strati
  • Apprendimento automatico tradizionale: più di 20 algoritmi (classificazione, regressione, raggruppamento, eccetera.)
  • Supporto per CPU e GPU, inferenza veloce
  • Supporto ONNX
  • Le lingue: C ++, Giava, Obiettivo-C
  • Multi piattaforma: lo stesso codice può essere eseguito su Windows, Linux, Mac OS, iOS e Android

Ecco un articolo per principianti su come creare pipeline di machine learning:

Ecco un altro progetto che qualsiasi data scientist amerebbe, soprattutto se sei propenso alla ricerca. Spesso facciamo fatica a passare da un ambiente di test a un'implementazione su vasta scala; non è un passo facile da fare (dovremmo davvero apprezzare il ruolo svolto dagli ingegneri dei dati).

Google, Certo, ha una potenziale soluzione per noi sotto forma di Caliban. Questo è uno strumento per aiutarti a iniziare e tenere traccia dei tuoi esperimenti numerici in un ambiente di calcolo isolato e riproducibile.. Caliban è stato sviluppato da ricercatori e ingegneri di machine learning di Google.

google-ai-9839047

Come dicono, Caliban "rende facile passare da un semplice prototipo in esecuzione su una workstation a migliaia di lavori sperimentali in esecuzione nel cloud". Questi sono i punti salienti di cui essere a conoscenza:

  • Sviluppa il tuo codice sperimentale localmente e testalo in un ambiente isolato (Docker)
  • Desplácese fácilmente sobre los parametri experimentales
  • Invia i tuoi esperimenti come lavori cloud, dove verranno eseguiti nello stesso ambiente sandbox
  • Controlla e monitora i lavori

Progetti di visione artificiale open source

Sono sbalordito dai progressi che stiamo vedendo nella visione artificiale (Nessun gioco di parole inteso!). Sembra che ogni mese, quando mi siedo per scrivere questo articolo, Mi imbatto in quadri sempre più innovativi e nuovi approcci che migliorano lo stato dell'arte in questo campo.

Le organizzazioni stanno setacciando il mondo alla ricerca di talenti per la visione artificiale in questo momento, quindi è un buon momento per lavorare su questi progetti ed entrare in campo. Se non hai ancora iniziato a leggere sulla visione artificiale, ecco alcune risorse utili:

E se ti dessi un'immagine target e ti chiedessi di scrivere un programma di visione artificiale che crei l'immagine da zero?? sì, questo è il potere della visione artificiale!

Questo progetto open source davvero interessante ci consente di imitare un processo di disegno quando ci viene fornita un'immagine di destinazione. Ecco una piccola demo di come si presenta il processo:

genetic_drawing_open_source_data_science-6537626

Non vedo l'ora di metterci le mani sopra e iniziare a disegnare ogni genere di cose.. Avrai bisogno delle seguenti librerie Python per eseguirlo:

  • OpenCV 3.4.1
  • NumPy 1.16.2
  • matplotlib 3.0.3

Lo sviluppatore ci ha anche fornito un esempio in modo che tu possa eseguirlo e vedere svolgersi la magia della visione artificiale. Ti suggerisco anche di dare un'occhiata ai seguenti articoli OpenCV se non hai mai lavorato con loro prima:

Questo progetto open source è rivolto a data scientist leggermente più avanzati. Per capire di cosa tratta questo progetto, dobbiamo capire il concetto di super risoluzione dell'immagine singola. In parole povere, el objetivo aquí es construir una imagen de alta risoluzione a partir de una entrada correspondiente de baja resolución.

Sembra un classico progetto di visione artificiale!!

PULSE è una nuova soluzione a questa affermazione del problema. IMPULSO, abbreviazione di Photo Upsampling tramite Latent Space Exploration, genera immagini ultra realistiche ad alta risoluzione a risoluzioni incredibilmente alte. Y esto se logra de una manera totalmente auto-supervisada y no se limita a un operador de degradación específico utilizado durante el addestramento.

Prossimo, viene mostrato un esempio di come funziona PULSE:

pulse_computer_vision_open_source_project-1856807

Vi incoraggio a leggere prima il lavoro di ricerca prima di guardare il codice. Questo ti darà un'idea migliore di come funziona PULSE di seguito in modo che tu possa avvicinarti al codice in modo molto più chiaro.

Altri progetti di data science open source

Ecco un paio di progetti di data science open source che non rientrano nelle due categorie precedenti. In realtà, questi sono due progetti contrastanti: uno è rivolto ai principianti della scienza dei dati, mientras que el otro se ocupa del mundo del aprendizaje por refuerzo.

Scegli quello che funziona meglio per te e inizia ad esplorarlo.

Sono sicuro che molti di voi hanno lavorato con il set di dati Iris. Infatti, potrebbe anche essere stato il primo set di dati che hai usato per comprendere il concetto di classificazione nell'apprendimento automatico. Mi piace quanto sia facile capire ed esplorare il set di dati.

Ma lavorare con lo stesso set di dati può diventare un po' noioso, soprattutto quando stai imparando i dettagli del machine learning.

È qui che entra in gioco il set di dati PalmerPenguins.. Questo set di dati, open source il mese scorso, è posizionato come alternativa a Iris e mira a fornire un ampio set di dati per l'esplorazione e la visualizzazione dei dati, soprattutto per i principianti. Ecco un esempio delle visualizzazioni che puoi ottenere:

palmerpenguins_open_source_dataset-9005320

Il link che ho menzionato sopra contiene esempi di come iniziare a esplorare questi dati. Hanno anche fornito dettagli sulle diverse variabili, ma non ti piacerebbe esplorarlo tu stesso?? ?

Puoi ottenere PalmerPenguins sulla tua macchina usando il seguente codice:

# install.packages("telecomandi")
telecomandi::install_github("allisonhorst/palmerpenguins")

Consiglio anche di dare un'occhiata agli articoli popolari di seguito sull'esplorazione e la visualizzazione dei dati:

Ah, ecco un progetto open source per tutti voi, amici dell'apprendimento per rinforzo. SlimeVolleyGym è un semplice ambiente di palestra per testare algoritmi di apprendimento di rinforzo di agenti singoli e multipli. Questo è stato creato e open source da hardmaru, una leggenda nello spazio del machine learning.

Ecco come funziona il gioco secondo lui (ha creato lui stesso il gioco in JavaScript):

Il gioco è molto semplice: l'obiettivo dell'agente è far cadere la palla a terra dalla parte del suo avversario, facendo perdere una vita al suo avversario. Ogni agente inizia con cinque vite. L'episodio termina quando uno degli agenti perde tutte e cinque le vite., o dopo che sono passati 3000 Passi. Un agente riceve una ricompensa di +1 quando il tuo avversario perde o -1 quando perdi una vita.

rinforzo_apprendimento_open_source_project-2602061

Puoi installare limovolleygym direttamente da pip:

pip install slimevolleygym

Ecco un paio di fantastici tutorial del nostro esperto di apprendimento per rinforzo residente Ankit Choudhary:

Note finali

Uf, ci sono molti progetti. Il mio obiettivo, come sempre, era quello di mantenere i progetti il ​​più diversificati possibile in modo da poter scegliere quelli che si adattano al tuo viaggio nella scienza dei dati. Se sei un principiante, Ti suggerisco di iniziare con il set di dati PalmerPenguins, dal momento che la maggior parte delle persone non lo sa nemmeno adesso. Una grande opportunità per iniziare con un vantaggio.

Mi piacerebbe sentire i tuoi pensieri su quale progetto open source ti è stato più utile.. Oppure fammi sapere se desideri che presenti altri progetti di data science qui o nel numero del mese prossimo..

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.