L'approccio open source di Google per visualizzare set di dati di grandi dimensioni e ad alta dimensionalità utilizzando tSNE

Contenuti

Panoramica

  • Un pasante de Google ha sido pionero en un enfoque que utiliza tSNE para visualizar conjuntos de datos de alta dimensione.
  • Questo metodo genera grafici più velocemente di qualsiasi altro creato prima, E può essere aperto nel tuo browser web!!
  • È stato creato e open source nella famiglia TensorFlow.js

introduzione

Trattare con dati ad alta dimensionalità è sempre stata una grande sfida per i data scientist. Dovresti cercare caratteristiche nascoste esplorando il vasto terreno del set di dati (soprattutto) sconosciuto, contenente centinaia, si non centinaia, di variabili. Come diavolo inizi??

Per far fronte a questo, È stato creato l'algoritmo tSNE. Di sicuro hai ancora la PCA di cui puoi trarre vantaggio, ma quando hai un set di dati MASSIVE e vuoi cercare un modello in stile non lineare (un metodo più avanzato), tSNE ha dimostrato di essere più efficace. Mappa set di dati multidimensionali in due o più dimensioni. Riduce anche il numero di pacchi che devi generare quando si tratta di un gran numero di dimensioni.

Se sei nuovo su tSNE o hai bisogno di un aggiornamento, vedere questa guida che spiega in modo esauriente questo meraviglioso concetto.

Ma uno dei limiti di tSNE è che è computazionalmente molto complesso. Anche quando è destinato a grandi set di dati, questa restrizione ti ha limitato a set di dati relativamente piccoli. Quindi, uno stagista di Google ha deciso di sperimentare un approccio innovativo per massimizzare l'uso di tSNE. Su método se basa en gran misura en el hardware gráfico moderno.

Questo nuovo approccio genera intarsi molto più velocemente di qualsiasi altra tecnica in questo spazio.. Ma ciò che spicca davvero è che può essere eseguito in un browser web!! Come chiedi?? È qui che viene alla ribalta TensorFlow.js. Il metodo di Google sfrutta le capacità della GPU tramite WebGL, un'API JavaScript utilizzata per il rendering di grafica 2D e 3D in qualsiasi browser. Dai un'occhiata alla nostra copertura TensorFlow.js qui.

Il gruppo, guidato da stagista, successivamente ha testato il suo approccio sul popolare set di dati di immagini scritte a mano MNIST. Cosa bevevo 15 i minuti da calcolare ora possono essere eseguiti in tempo reale e nel browser Web stesso. Parliamo di progresso!

L'immagine sopra offre una panoramica di questo approccio.. L'ho riassunto qui sotto, tomando un extracto de su trabajo de investigación:

  • Prima immagine: la minimizzazione della funzione obiettivo è calcolata in tempo lineare utilizzando un campo scalare
  • Seconda foto: e un campo vettoriale bidimensionale
  • Terza e quarta immagine: I campi vengono calcolati sulla GPU attraverso la proiezione di core opportunamente progettati utilizzando la funzione di unione additiva della moderna pipeline di rendering. El resto de la reducción al mínimo se trata como una canalización de cálculo de tensor que se calcula en la GPU a través de TensorFlow.js

Ho elencato alcune risorse di seguito, Ti incoraggio a consultare per acquisire una profonda comprensione di questo approccio:

La nostra opinione su questo

Se hai mai avuto a che fare con set di dati ad alta dimensionalità, potresti già essere sulla buona strada per utilizzare questo approccio. Questo approccio tSNE potrebbe essere un vero punto di svolta per le istituzioni che si occupano di grandi set di dati e non hanno molto tempo a disposizione..

Uno di (pochi) limitazioni oggi è la sua capacità di generare solo visualizzazioni 2D (non funziona ancora con il 3D). Ma non lo vedo come un ostacolo, poiché la maggior parte delle visualizzazioni con cui lavorano i data scientist sono nello spazio 2D (a meno che tu non stia lavorando con dati geospaziali).

“Open Source di Google” è diventata una frase molto usata in questi giorni. Mi piace che aprano costantemente i risultati della loro ricerca a beneficio della più ampia comunità di ML.. Fatemi sapere cosa ne pensate di questa tecnica nella sezione commenti qui sotto..

Iscriviti ad AVBytes qui per aggiornamenti regolari sulla scienza dei dati, machine learning e intelligenza artificiale nella tua casella di posta.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.