Generazione di ipotesi per progetti di data science

Contenuti

Questo articolo è stato pubblicato nell'ambito del Blogathon sulla scienza dei dati.

introduzione

El primer paso hacia la risoluzione de problemas en proyectos de ciencia de datos no se trata de construir modelos de aprendizaje automático. sì, hai letto bene!

Questa distinzione appartiene alla generazione delle ipotesi, il passaggio in cui le nostre capacità di problem solving si uniscono alla nostra intuizione aziendale. È un passo davvero cruciale per garantire il successo di un progetto di data science.

Diciamo la verità: quasi tutti i giorni pensiamo a un'ipotesi. Considera l'esempio di uno sport famoso in India: cricket. È quel periodo dell'anno in cui la febbre dell'IPL è alta e siamo tutti intenti a prevedere il vincitore..

Se hai indovinato quale squadra vincerebbe in base a vari fattori, come le dimensioni dello stadio e i battitori presenti nella squadra con sei abilità di battuta o battitori con medie alte di T20, Congratulazioni a tutti. Avete tutti fatto un'ipotesi plausibile e generato ipotesi basate sulla vostra conoscenza del dominio dello sport..

3-1-9818889

Nello stesso modo, il primo passo per risolvere qualsiasi problema aziendale utilizzando l'apprendimento automatico è la generazione di ipotesi. Comprendere l'affermazione del problema con una buona conoscenza del dominio è importante e formulare un'ipotesi ti esporrà ulteriormente a nuove idee per la risoluzione dei problemi..

Quindi, in questo articolo, Immergiamoci in cos'è la generazione di ipotesi e scopriamo perché è importante per tutti i data scientist.

Sommario

  • Che cos'è la generazione di ipotesi?
  • Generazione di ipotesi vs verifica delle ipotesi
  • In che modo aiuta la generazione di ipotesi??
  • Quando dovrebbe essere generata l'ipotesi?
  • Argomento di studio: Generare ipotesi con la previsione della lunghezza della corsa in taxi a New York City

Che cos'è la generazione di ipotesi?

Ipotesi La generazione è una “assunzione” informato di vari fattori che stanno influenzando il problema aziendale che deve essere risolto dall'apprendimento automatico. Quando si formula un'ipotesi, il data scientist non deve conoscere il risultato dell'ipotesi che è stata generata sulla base di alcuna prova.

“Un'ipotesi può essere definita semplicemente come un'assunzione. Un'ipotesi scientifica è un'ipotesi intelligente “. – Isacco Asimov

La generazione di ipotesi è un passaggio cruciale in qualsiasi progetto di data science. Se lo salti o lo recensisci, la probabilità che il progetto fallisca aumenta esponenzialmente.

Generazione di ipotesi vs. Verifica di ipotesi

Questo è un errore molto comune che fanno i principianti di data science.

La generazione di ipotesi è un processo che inizia con un'ipotesi plausibile, considerando che il test di ipotesi è un processo per concludere che l'assunzione fondata è vera / false o che la relazione tra le variabili è statisticamente significativa o meno.

Quest'ultima parte potrebbe essere utilizzata per ricerche future utilizzando test statistici. Un'ipotesi viene accettata o rifiutata in base al livello di significatività e al punteggio del test utilizzato per verificare l'ipotesi.

Per saperne di più sui test di ipotesi in dettaglio, puoi leggerlo qui o puoi anche impararlo attraverso questo corso.

In che modo aiuta la generazione di ipotesi??

qui c'è 5 ragioni principali per cui la generazione di ipotesi è così importante nella scienza dei dati:

  • La generación de hipótesis ayuda a comprender el problema empresarial a misura que profundizamos en la inferencia de los diversos factores que afectan nuestra variabile obbiettivo.
  • Avrai un'idea molto migliore di quali sono i principali fattori responsabili della risoluzione del problema.
  • Dati da raccogliere da varie fonti che sono fondamentali per trasformare il tuo problema aziendale in un problema basato sulla scienza dei dati
  • Migliora la consapevolezza del tuo dominio se non conosci il dominio mentre dedichi tempo alla comprensione del problema
  • Aiuta ad affrontare il problema in modo strutturato

Quando dovrebbe essere generata l'ipotesi?

La domanda da un milione di dollari: A che ora nel mondo dovresti eseguire la generazione di ipotesi?

  • La generazione di ipotesi dovrebbe essere eseguita prima di esaminare il set di dati o la raccolta dei dati.
  • Noterai che se hai generato correttamente la tua ipotesi, avrebbe incluso tutte le variabili presenti nel data set nella generazione della sua ipotesi.
  • Potrebbe anche aver incluso variabili che non sono presenti nel set di dati

Argomento di studio: generazione di ipotesi su “prevedere la durata della corsa in taxi a New York City”

Vediamo ora il PREVISIONE DELLA DURATA DEL VIAGGIO IN TAXI A NEW YORK CITY dichiarazione del problema e generare alcune ipotesi che influenzerebbero la durata del nostro viaggio in taxi per capire la generazione di ipotesi.

95993nyc20image-5740057

Ecco la dichiarazione del problema:

Prevedere la durata di un viaggio in modo che l'azienda possa assegnare i taxi rimasti liberi per il prossimo viaggio. Ciò contribuirà a ridurre i tempi di attesa dei clienti e aiuterà anche a guadagnare la fiducia dei clienti..

Iniziamo!

Generazione di ipotesi basate su vari fattori

1. Funzioni basate sulla distanza / velocità

Proviamo a trovare una formula che sia legata alla durata del viaggio e ci aiuti a generare diverse ipotesi per il problema:

TEMPO = DISTANZA / VELOCITÀ

La distanza e la velocità giocano un ruolo importante nella previsione della durata del viaggio.

Possiamo notare che la durata del viaggio è direttamente proporzionale alla distanza percorsa ed inversamente proporzionale alla velocità del taxi. Con questo possiamo arrivare ad un'ipotesi basata su distanza e velocità.

  • Distanza: Maggiore è la distanza percorsa dal taxi, più lunga è la durata del viaggio.
  • Punto di caduta interno: I punti di sbarco in corsie congestionate o interne potrebbero comportare un aumento della durata del viaggio.
  • Velocità: A velocità maggiore, durata del viaggio più breve

2. Funzioni basate sull'auto

Le auto sono di vari tipi, taglie e marche, e queste caratteristiche dell'auto potrebbero essere vitali per il viaggio non solo per la sicurezza dei passeggeri ma anche per la durata del viaggio. Generiamo ora alcune ipotesi in base alle caratteristiche dell'auto.

  • Condizione dell'acR: È improbabile che le auto in buone condizioni abbiano problemi di guasto e potrebbero avere una durata del viaggio più breve
  • Dimensioni dell'auto: Piccole auto (Hatchback) potrebbe avere una durata del viaggio più breve e auto di dimensioni maggiori (XUV) potrebbe avere un tempo di percorrenza più lungo a seconda delle dimensioni dell'auto e della congestione della città.

3. Tipo di viaggio

I tipi di viaggio possono essere diversi a seconda dei fornitori di viaggio: potrebbe essere un viaggio in una stazione remota, viaggi individuali o di gruppo. Ora definiamo un'ipotesi in base al tipo di viaggio utilizzato.

  • Auto in piscina: I viaggi di gruppo possono aumentare la durata del viaggio, poiché l'auto raggiunge più posti prima di raggiungere la destinazione assegnata.

4. Funzionalità basate sui dettagli del controller

Un autista è una persona importante quando si tratta di viaggiare in tempo. Vari fattori sull'autista possono aiutare a capire il motivo alla base della durata del viaggio ed ecco alcune ipotesi a riguardo.

  • Età del conducente: I conducenti più anziani potrebbero essere più attenti e contribuire a una maggiore durata del viaggio.
  • Genere: È probabile che i conducenti donne guidino lentamente e questo potrebbe contribuire a un tempo di percorrenza più lungo.
  • Esperienza di guida: I conducenti con meno esperienza di guida possono portare a una durata del viaggio più lunga.
  • Condizioni mediche: I conducenti con una condizione medica possono contribuire a una durata del viaggio più lunga.

5. Dati dei passeggeri

I passeggeri possono influenzare la durata del viaggio consapevolmente o inconsapevolmente. Generalmente, ci imbattiamo in passeggeri che chiedono agli autisti di accelerare perché stanno facendo tardi e potrebbero esserci altre ipotesi fattori che possiamo considerare.

  • Età dei passeggeri: Le persone anziane come passeggeri possono contribuire a una maggiore durata del viaggio, poiché i conducenti tendono a rallentare nei viaggi che coinvolgono persone anziane.
  • Condizioni mediche o gravidanza: I passeggeri con condizioni mediche contribuiscono a prolungare la durata del viaggio.
  • Emergenza: I passeggeri in emergenza potrebbero aiutare a ridurre i tempi di viaggio.
  • Conteggio passeggeri: Un numero maggiore di passeggeri porta a viaggi più brevi a causa della congestione dei posti

6. Funzioni di data e ora

Il giorno e l'ora della settimana sono importanti, poiché New York è una città frenetica e potrebbe essere molto congestionata durante l'orario di ufficio o nei giorni feriali. Ora generiamo alcune ipotesi sulle caratteristiche in base a data e ora.

Giorno del ritiro:

  • I fine settimana potrebbero contribuire a più viaggi nelle stazioni remote e potrebbero avere una durata del viaggio più lunga.
  • I giorni feriali tendono ad avere un tempo di viaggio più lungo a causa dell'elevato traffico.
  • Se il giorno del ritiro è festivo, la durata del viaggio potrebbe essere più breve.
  • Se il giorno del ritiro cade in una settimana festiva, il tempo di viaggio potrebbe essere più breve a causa del minor traffico.

Tempo metereologico:

  • I viaggi di prima mattina hanno una durata del viaggio più breve a causa del minor traffico
  • I viaggi notturni hanno una durata maggiore a causa delle ore di punta

7. Funzionalità su strada

Le strade sono di diversi tipi e le condizioni della strada o gli ostacoli sulla strada sono fattori che non possono essere ignorati. Formiamo alcune ipotesi in base a questi fattori.

  • Stato della strada: La durata del viaggio è più lunga se lo stato della strada è cattivo
  • Tipo di strada: I viaggi su strade in cemento tendono ad avere una durata del viaggio più breve.
  • Sciopero sulla strada: Gli scioperi effettuati sulle strade nel senso di marcia aumentano la durata del viaggio

8. Funzionalità basate sul meteo

Il tempo può cambiare in qualsiasi momento e potrebbe influire sul viaggio se il tempo peggiora. Perciò, questa è una caratteristica importante da considerare nella nostra ipotesi.

  • Meteo all'inizio del viaggio: Le condizioni meteorologiche piovose contribuiscono a prolungare la durata del viaggio

Note finali

  • Dopo aver scritto la nostra ipotesi e aver esaminato il set di dati Noterai che avresti coperto ipotesi scrivendo sulla maggior parte delle funzionalità presenti nel set di dati. Potrebbe anche esserci la possibilità che tu debba lavorare con meno funzioni e che le funzioni che hai ipotizzato non vengano catturate. / attualmente archiviato dall'azienda e non disponibile.
  • Vai sempre avanti e acquisisci dati da fonti esterne se ritieni che i dati siano rilevanti per la tua previsione. Non .: Ottieni informazioni meteo
  • È anche importante notare che, poiché la generazione di ipotesi è un'assunzione stimata, l'ipotesi generata potrebbe rivelarsi vera o falsa una volta eseguite analisi esplorative dei dati e test di ipotesi sui dati.

Spero che tu sia riuscito a ottenere qualcosa di valore da questo post. Se c'è qualcosa che mi è sfuggito o qualcosa di impreciso o se avete commenti, Fatemi sapere nei commenti. sarei molto apprezzato.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.