Panoramica
- I progetti di data science open source aggiungono molto valore al tuo curriculum e ti aiutano a distinguerti in un colloquio
- qui c'è 7 progetti di data science open source su cui dovresti lavorare questo mese
introduzione
Ti darò alcuni consigli che avrei voluto che qualcuno mi avesse dato quando ho iniziato la mia carriera nella scienza dei dati.. Quando stavo percorrendo il viaggio pieno di ostacoli attraverso gli stagni della scienza dei dati, Ho avuto una grande lotta prima di ottenere il mio primo ruolo.. Aveva tutte le qualifiche (o così pensavo) ma qualcosa sembrava sbagliato.
Quel divario tra ciò che ho portato in tavola e ciò che l'intervistatore si aspettava era l'esperienza in progetti di data science..
I progetti di data science aggiungono molto valore al tuo curriculum, soprattutto se sei un principiante. La maggior parte dei nuovi arrivati avrà certificazioni, ma l'aggiunta di progetti di data science open source ti darà un vantaggio significativo rispetto alla concorrenza. E credimi, ci sono un numero impressionante di progetti di data science open source per te.
Qui, Ho messo insieme un elenco dei migliori progetti di data science open source che sono stati creati o lanciati a giugno. Questo fa parte della mia serie di progetti mensili in cui presento i migliori progetti di data science open source su GitHub.
Se vuoi vedere i progetti precedenti, Li ho raccolti sotto forma di corso gratuito. Sono strutturati per dominio (progetti di visione artificiale, Progetti di PNL, eccetera.) così puoi concentrarti sul progetto che desideri. E se sei nuovo su GitHub, assicurati di essere iscritto a questo corso introduttivo gratuito su Git e GitHub.
Progetti di data science open source per migliorare il tuo curriculum
Ho diviso i progetti in tre categorie in base al loro dominio:
- Apprendimento automatico
- Visione computerizzata
- Altri progetti di data science open source, compreso un impressionante set di dati
Diamo un'occhiata a ciascuna categoria singolarmente.
Progetti di machine learning open source
Qui è dove otterrai il terreno di apprendimento automatico.. Qui tratteremo tre utili progetti open source relativi al machine learning.. Puoi scegliere un progetto in base ai tuoi interessi o provarli tutti. Ho cercato di mantenerli il più diversificati possibile in modo che tu possa vedere un progetto sui documenti di machine learning e un altro sulla creazione di pipeline di machine learning.
Se stai cercando una guida o sei nuovo in questo campo, Ti indirizzerò ad alcune utili risorse di apprendimento:
Leggere articoli di ricerca sull'apprendimento automatico è una prospettiva piuttosto schiacciante per la maggior parte dei professionisti., molto meno per i principianti. Gli scienziati dei dati e i ricercatori di machine learning tendono a scrivere articoli estremamente tecnici che anche gli esperti hanno difficoltà a decodificare.. In realtà, questo è uno dei maggiori punti deboli nel nostro campo.
Perciò, ogni sforzo per rompere la complessità è sempre il benvenuto. Questo utile progetto è una raccolta di articoli su data science e machine learning “con illustrazioni, annotazioni e brevi spiegazioni di parole chiave tecniche, termini e studi precedenti che facilitano la lettura dell'articolo e l'idea principale”.
Questo progetto era open source su GitHub la scorsa settimana, quindi viene aggiornato regolarmente. A quest'ora, possiamo già vedere alcuni articoli lì in modo da poterli rivedere e avere un'idea di come sono state fatte le annotazioni. Amo particolarmente l'annotazione YOLOv1:
Molto bello! Vai avanti ed esplora questo e gli altri documenti. C'è molto da imparare!
Questo è un progetto piuttosto interessante per chiunque abbia un po' di conoscenza della scienza dei dati.
NeoML è un framework di apprendimento automatico completo che ci consente di creare, addestrare e implementare modelli di machine learning. In sintesi, possiamo creare una pipeline di machine learning end-to-end senza il fastidio di spendere molti soldi in soluzioni pronte all'uso.
Gli scienziati dei dati e gli ingegneri dei dati possono utilizzarlo per la visione artificiale e le attività di elaborazione del linguaggio naturale (PNL), come pre-elaborazione delle immagini, classificazione, analisi della progettazione del documento, OCR ed estrazione dati da documenti strutturati e non strutturati.
Ecco la funzionalità chiave di NeoML che ho preso dal loro repository GitHub:
- Reti neurali compatibili con più di 100 tipi di strati
- Apprendimento automatico tradizionale: più di 20 algoritmi (classificazione, regressione, raggruppamento, eccetera.)
- Supporto per CPU e GPU, inferenza veloce
- Supporto ONNX
- Le lingue: C ++, Giava, Obiettivo-C
- Multi piattaforma: lo stesso codice può essere eseguito su Windows, Linux, Mac OS, iOS e Android
Ecco un articolo per principianti su come creare pipeline di machine learning:
Ecco un altro progetto che qualsiasi data scientist amerebbe, soprattutto se sei propenso alla ricerca. Spesso facciamo fatica a passare da un ambiente di test a un'implementazione su vasta scala; non è un passo facile da fare (dovremmo davvero apprezzare il ruolo svolto dagli ingegneri dei dati).
Google, Certo, ha una potenziale soluzione per noi sotto forma di Caliban. Questo è uno strumento per aiutarti a iniziare e tenere traccia dei tuoi esperimenti numerici in un ambiente di calcolo isolato e riproducibile.. Caliban è stato sviluppato da ricercatori e ingegneri di machine learning di Google.
Come dicono, Caliban "rende facile passare da un semplice prototipo in esecuzione su una workstation a migliaia di lavori sperimentali in esecuzione nel cloud". Questi sono i punti salienti di cui essere a conoscenza:
- Sviluppa il tuo codice sperimentale localmente e testalo in un ambiente isolato (Docker)
- Desplácese fácilmente sobre los parametriIl "parametri" sono variabili o criteri che vengono utilizzati per definire, misurare o valutare un fenomeno o un sistema. In vari campi come la statistica, Informatica e Ricerca Scientifica, I parametri sono fondamentali per stabilire norme e standard che guidano l'analisi e l'interpretazione dei dati. La loro corretta selezione e gestione sono fondamentali per ottenere risultati accurati e pertinenti in qualsiasi studio o progetto.... experimentales
- Invia i tuoi esperimenti come lavori cloud, dove verranno eseguiti nello stesso ambiente sandbox
- Controlla e monitora i lavori
Progetti di visione artificiale open source
Sono sbalordito dai progressi che stiamo vedendo nella visione artificiale (Nessun gioco di parole inteso!). Sembra che ogni mese, quando mi siedo per scrivere questo articolo, Mi imbatto in quadri sempre più innovativi e nuovi approcci che migliorano lo stato dell'arte in questo campo.
Le organizzazioni stanno setacciando il mondo alla ricerca di talenti per la visione artificiale in questo momento, quindi è un buon momento per lavorare su questi progetti ed entrare in campo. Se non hai ancora iniziato a leggere sulla visione artificiale, ecco alcune risorse utili:
E se ti dessi un'immagine target e ti chiedessi di scrivere un programma di visione artificiale che crei l'immagine da zero?? sì, questo è il potere della visione artificiale!
Questo progetto open source davvero interessante ci consente di imitare un processo di disegno quando ci viene fornita un'immagine di destinazione. Ecco una piccola demo di come si presenta il processo:
Non vedo l'ora di metterci le mani sopra e iniziare a disegnare ogni genere di cose.. Avrai bisogno delle seguenti librerie Python per eseguirlo:
- OpenCV 3.4.1
- NumPy 1.16.2
- matplotlib 3.0.3
Lo sviluppatore ci ha anche fornito un esempio in modo che tu possa eseguirlo e vedere svolgersi la magia della visione artificiale. Ti suggerisco anche di dare un'occhiata ai seguenti articoli OpenCV se non hai mai lavorato con loro prima:
Questo progetto open source è rivolto a data scientist leggermente più avanzati. Per capire di cosa tratta questo progetto, dobbiamo capire il concetto di super risoluzione dell'immagine singola. In parole povere, el objetivo aquí es construir una imagen de alta risoluzioneIl "risoluzione" si riferisce alla capacità di prendere decisioni ferme e raggiungere gli obiettivi prefissati. In contesti personali e professionali, Implica la definizione di obiettivi chiari e lo sviluppo di un piano d'azione per raggiungerli. La risoluzione è fondamentale per la crescita personale e il successo in vari ambiti della vita, In quanto ti permette di superare gli ostacoli e mantenere la concentrazione su ciò che conta davvero.... a partir de una entrada correspondiente de baja resolución.
Sembra un classico progetto di visione artificiale!!
PULSE è una nuova soluzione a questa affermazione del problema. IMPULSO, abbreviazione di Photo Upsampling tramite Latent Space Exploration, genera immagini ultra realistiche ad alta risoluzione a risoluzioni incredibilmente alte. Y esto se logra de una manera totalmente auto-supervisada y no se limita a un operador de degradación específico utilizado durante el addestramentoLa formazione è un processo sistematico volto a migliorare le competenze, conoscenze o abilità fisiche. Viene applicato in vari ambiti, come lo sport, Formazione e sviluppo professionale. Un programma di allenamento efficace include la pianificazione degli obiettivi, Pratica regolare e valutazione dei progressi. L'adattamento alle esigenze individuali e la motivazione sono fattori chiave per ottenere risultati di successo e sostenibili in qualsiasi disciplina.....
Prossimo, viene mostrato un esempio di come funziona PULSE:
Vi incoraggio a leggere prima il lavoro di ricerca prima di guardare il codice. Questo ti darà un'idea migliore di come funziona PULSE di seguito in modo che tu possa avvicinarti al codice in modo molto più chiaro.
Altri progetti di data science open source
Ecco un paio di progetti di data science open source che non rientrano nelle due categorie precedenti. In realtà, questi sono due progetti contrastanti: uno è rivolto ai principianti della scienza dei dati, mientras que el otro se ocupa del mundo del aprendizaje por refuerzoEl aprendizaje por refuerzo es una técnica de inteligencia artificial que permite a un agente aprender a tomar decisiones mediante la interacción con un entorno. A través de la retroalimentación en forma de recompensas o castigos, el agente optimiza su comportamiento para maximizar las recompensas acumuladas. Este enfoque se utiliza en diversas aplicaciones, desde videojuegos hasta robótica y sistemas de recomendación, destacándose por su capacidad de aprender estrategias complejas.....
Scegli quello che funziona meglio per te e inizia ad esplorarlo.
Sono sicuro che molti di voi hanno lavorato con il set di dati Iris. Infatti, potrebbe anche essere stato il primo set di dati che hai usato per comprendere il concetto di classificazione nell'apprendimento automatico. Mi piace quanto sia facile capire ed esplorare il set di dati.
Ma lavorare con lo stesso set di dati può diventare un po' noioso, soprattutto quando stai imparando i dettagli del machine learning.
È qui che entra in gioco il set di dati PalmerPenguins.. Questo set di dati, open source il mese scorso, è posizionato come alternativa a Iris e mira a fornire un ampio set di dati per l'esplorazione e la visualizzazione dei dati, soprattutto per i principianti. Ecco un esempio delle visualizzazioni che puoi ottenere:
Il link che ho menzionato sopra contiene esempi di come iniziare a esplorare questi dati. Hanno anche fornito dettagli sulle diverse variabili, ma non ti piacerebbe esplorarlo tu stesso?? ?
Puoi ottenere PalmerPenguins sulla tua macchina usando il seguente codice:
# install.packages("telecomandi") telecomandi::install_github("allisonhorst/palmerpenguins")
Consiglio anche di dare un'occhiata agli articoli popolari di seguito sull'esplorazione e la visualizzazione dei dati:
Ah, ecco un progetto open source per tutti voi, amici dell'apprendimento per rinforzo. SlimeVolleyGym è un semplice ambiente di palestra per testare algoritmi di apprendimento di rinforzo di agenti singoli e multipli. Questo è stato creato e open source da hardmaru, una leggenda nello spazio del machine learning.
Ecco come funziona il gioco secondo lui (ha creato lui stesso il gioco in JavaScript):
Il gioco è molto semplice: l'obiettivo dell'agente è far cadere la palla a terra dalla parte del suo avversario, facendo perdere una vita al suo avversario. Ogni agente inizia con cinque vite. L'episodio termina quando uno degli agenti perde tutte e cinque le vite., o dopo che sono passati 3000 Passi. Un agente riceve una ricompensa di +1 quando il tuo avversario perde o -1 quando perdi una vita.
Puoi installare limovolleygym direttamente da pip:
pip install slimevolleygym
Ecco un paio di fantastici tutorial del nostro esperto di apprendimento per rinforzo residente Ankit Choudhary:
Note finali
Uf, ci sono molti progetti. Il mio obiettivo, come sempre, era quello di mantenere i progetti il più diversificati possibile in modo da poter scegliere quelli che si adattano al tuo viaggio nella scienza dei dati. Se sei un principiante, Ti suggerisco di iniziare con il set di dati PalmerPenguins, dal momento che la maggior parte delle persone non lo sa nemmeno adesso. Una grande opportunità per iniziare con un vantaggio.
Mi piacerebbe sentire i tuoi pensieri su quale progetto open source ti è stato più utile.. Oppure fammi sapere se desideri che presenti altri progetti di data science qui o nel numero del mese prossimo..