Questo articolo è stato pubblicato nell'ambito del Blogathon sulla scienza dei dati
introduzione
Sopra Scienza dei dati, Il nostro obiettivo è condurre diversi esperimenti con dati grezzi e trovare alcune buone intuizioni dai dati.. Per spingere qualsiasi azienda sulla strada giusta, I dati sono molto importanti o possiamo dire che “I dati sono il carburante”. Almeno può fornire informazioni utili che possono aiutare:
- Strategie di campagna attuali,
- Organizza facilmente lanci di nuovi prodotti o
- Prova diversi esperimenti.
In tutte le cose sopra menzionate, L'unico componente di guida comune sono i dati. Stiamo entrando nell'era digitale in cui produciamo molti dati ogni giorno.
Ad esempio, Quotidiano, un'azienda come Flipkart produce più di 2 TB di dati.
A causa della grande importanza dei dati nelle nostre vite, Diventa molto importante archiviare ed elaborare correttamente questi dati senza alcun errore. Quando si ha a che fare con i set di dati, Il tipo di dati o la categoria dei dati svolge un ruolo importante nel trovare la risposta alle seguenti domande:
- Quale strategia di pre-elaborazione funzionerebbe per un particolare set per ottenere i risultati giusti, oh
- Che tipo di analisi statistica dovrebbe essere applicata per ottenere i migliori risultati.
Quindi, in questo articolo, Discuteremo i diversi tipi di dati nelle statistiche che devi sapere fare. Analisi esplorativa dei dati (EDA), che è uno dei componenti più importanti nella pipeline di un progetto di machine learning.
Fonte immagine: Google Immagini
Sommario
1. Introduzione ai tipi di dati nelle statistiche e alla loro importanza
2. Dati qualitativi vs dati quantitativi
3. Dati qualitativi
- Dati nominali
- Dati ordinali
4. Dati quantitativi
- Dati discreti
- Dati continui
- Dati dell'intervallo
- Dati sulle relazioni
Introduzione ai tipi di dati nelle statistiche
Nelle statistiche, I tipi di dati svolgono un ruolo cruciale e importante, Cosa capire, per applicare correttamente le misurazioni statistiche ai tuoi dati in modo da poter concludere correttamente determinate ipotesi sui dati.
Allo stesso modo, Abbiamo bisogno di sapere su quale analisi dei dati e il loro tipo stai lavorando per selezionare la giusta tecnica di percezione, poiché diversi tipi di dati sono considerati come un approccio per organizzare vari tipi di variabili.
Durante il lavoro Analisi esplorativa dei dati (EDA) In un progetto generale di data science, È fondamentale avere una buona comprensione dei diversi tipi di dati, poiché possiamo utilizzare determinate misure statistiche solo per tipi specifici di dati.
Conosciuto anche come il Scala di misurazione.
Quando si ha a che fare con uno qualsiasi dei tipi di dati, Abbiamo anche bisogno di sapere quale metodo di visualizzazione si adatta al particolare tipo di dati..
Possiamo pensare ai tipi di dati come a un modo per classificare diversi tipi di variabili..
Dati quantitativi vs qualitativi
Dati quantitativi
1. Questi tipi di dati sembrano essere i più facili da spiegare. Prova a trovare le risposte a domande come
- “Quanti,
- “Quanto” e
- “Con quale frequenza”
2. Può essere espresso come un numero, quindi può essere quantificato. In parole semplici, può essere misurato da variabili numeriche.
3. Questi sono facilmente aperti per la manipolazione statistica e possono essere rappresentati da un'ampia varietà di tipi statistici di grafici e tabelle come grafici a linee, grafici a barre, grafico a dispersioneUn grafico a dispersione è una rappresentazione visiva che mostra la relazione tra due variabili numeriche utilizzando punti su un piano cartesiano. Ogni asse rappresenta una variabile, e la posizione di ciascun punto indica il suo valore in relazione ad entrambi. Questo tipo di grafico è utile per identificare i modelli, Correlazioni e tendenze nei dati, facilitare l'analisi e l'interpretazione delle relazioni quantitative....eccetera.
Esempi di dati quantitativi:
- Punteggi dei test e degli esami, P. Non. 74, 67, 98, eccetera.
- Il peso di una persona.
- La temperatura in una stanza.
Ci sono 2 Tipi generali di dati quantitativi:
- Dati discreti
- Dati continui
Dati qualitativi
1. I dati qualitativi non possono essere espressi come numeri, quindi non possono essere misurati. Consiste principalmente di parole, Immagini e simboli, ma non i numeri.
2. È anche conosciuto come Dati categoriali poiché le informazioni possono essere ordinate per categoria, non per numero.
3. Possono rispondere a domande come:
- “Come è successo”, oh
- "Perché è successo".
Esempi di dati qualitativi:
- Colori, ad esempio, Il colore del mare.
- Destinazioni turistiche popolari come la Svizzera, Nuova Zelanda, Sud Africa, eccetera.
- Etnia come indiano d'America, Asiatico, eccetera.
Generalmente, esistere 2 Tipi di dati qualitativi:
- Dati nominali
- Dati ordinali.
Dati qualitativi
Dati nominali
1. Questo tipo di dati viene utilizzato solo per etichettare le variabili, senza avere alcun valore quantitativo. Qui, Il termine «nominale»’ deriva dalla parola latina “non l'uomo” Cosa significa 'nome’.
2. Basta nominare una cosa senza richiedere alcun ordine particolare. Dati nominali a volte indicati come “etichette”.
Esempi di dati nominali:
- Genere (donne, uomini)
- Colore dei capelli (biondo, castagna, abbronzato, rosso, eccetera.)
- Stato civile (sposato, laurea, vedovo)
Come puoi vedere negli esempi, Non esiste un ordine intrinseco per le variabili.
El color de los ojos es una variabileIn statistica e matematica, un "variabile" è un simbolo che rappresenta un valore che può cambiare o variare. Esistono diversi tipi di variabili, e qualitativo, che descrivono caratteristiche non numeriche, e quantitativo, che rappresentano quantità numeriche. Le variabili sono fondamentali negli esperimenti e negli studi, poiché consentono l'analisi delle relazioni e dei modelli tra elementi diversi, facilitare la comprensione di fenomeni complessi.... nominal que tiene unos pocos niveles o categorías como Azul, Verde, Marrone, eccetera. e non c'è modo possibile di ordinare gerarchicamente queste categorie, vale a dire, dal più alto al più basso o viceversa.
Fonte immagine: Google Immagini
Dati ordinali
1. La differenza cruciale con i tipi di dati nominali è che i dati ordinali mostrano dove un numero è presente in un ordine particolare..
2. Questo tipo di dati viene inserito in una sorta di ordine in base alla sua posizione su una scala.. I dati ordinali possono indicare superiorità.
3. Non possiamo fare operazioni aritmetiche con i dati ordinali perché mostrano solo la sequenza.
4. Le variabili ordinali sono considerate variabili "intermedie" qualitative e quantitative.
5. In parole semplici, Possiamo intendere i dati ordinali come dati qualitativi per i quali sono ordinati i valori..
6. Rispetto ai dati nominali, Il secondo sono i dati qualitativi i cui valori non possono essere inseriti in un ordine..
7. Secondo la posizione relativa, Possiamo anche assegnare numeri ai dati ordinali. Ma non possiamo fare matematica con quei numeri.. Ad esempio, “Primo, secondo, terzo … eccetera.”
Esempi di dati ordinali:
- Classifica degli utenti in una competizione: Primo, Secondo e terzo, eccetera.
- Valutazione di un prodotto preso dall'azienda su una scala di 1 al 10.
- Situazione economica: baja, medio e alto.
Fonte immagine: Google Immagini
Dati quantitativi
Dati discreti
1. Mostra il conteggio che coinvolge solo numeri interi e non possiamo suddividere valori discreti in parti.
Ad esempio, Il numero di studenti in una classe è un esempio di dati discreti, poiché possiamo contare interi individui ma non possiamo contare come 2.5, 3.75, bambini.
2. In parole semplici, I dati discreti possono assumere solo determinati valori e le variabili di dati non possono essere suddivise in parti più piccole.
3. Ha un numero limitato di valori possibili ad esempio, giorni del mese.
Esempi di dati discreti:
- Il numero di studenti in una classe.
- Il numero di lavoratori in un'azienda.
- Il numero di domande del test a cui hai risposto correttamente.
Fonte immagine: Google Immagini
Dati continui
1. Rappresenta informazioni che potrebbero essere significativamente suddivise nei loro livelli più fini. Può essere misurato su una scala o continuo e può avere quasi tutti i valori numerici.
Ad esempio, Possiamo misurare la nostra altezza a scale molto precise in diverse unità come i metri, Centimetri, millimetri, eccetera.
2. La differenza fondamentale tra i tipi di dati continui e discreti è che nel primo, Possiamo registrare dati continui in tante misurazioni diverse quanto in larghezza, temperatura, tempo metereologico, eccetera.
3. Le variabili continue possono assumere qualsiasi valore compreso tra due numeri. Ad esempio, tra la gamma di 60 e 82 pollici, Ci sono milioni di altezze possibili come 62.04762 pollici, 79.948376 pollici, eccetera.
4. Una buona regola empirica per definire se i dati sono continui o discreti è se il punto di misurazione può essere dimezzato e ha ancora senso., I dati sono continui.
Esempi di dati continui:
- La quantità di tempo necessaria per completare un progetto.
- Altezza bambini.
- La velocità delle auto.
Fonte immagine: Google Immagini
Dati dell'intervallo
1. Questi tipi di dati possono essere misurati e ordinati con gli elementi più vicini., ma non hanno uno zero significativo.
Capiamo il significato di “Scala dell'intervallo”:
Sulla scala degli intervalli, Il termine «intervallo»’ significa spazio nel mezzo, che è una cosa significativa da ricordare, Poiché le scale di intervallo non solo ci istruiscono sull'ordine, Forniscono inoltre informazioni sul valore tra ciascun elemento..
2. Fondamentalmente, Possiamo visualizzare i dati dell'intervallo allo stesso modo dei dati del rapporto, Ma ciò che dobbiamo prendere in considerazione sono i suoi punti zero caratterizzati..
3. Perciò, con l'aiuto dei dati di intervallo, Possiamo facilmente correlare i gradi dei dati e anche aggiungere o sottrarre i valori.
4. Ci sono alcune statistiche descrittive che possiamo calcolare per i dati di intervallo come:
- Misure di tendenza core (media, medianoLa mediana è una misura statistica che rappresenta il valore centrale di un insieme di dati ordinati. Per calcolarlo, I dati sono organizzati dal più basso al più alto e viene identificato il numero al centro. Se c'è un numero pari di osservazioni, I due valori fondamentali sono mediati. Questo indicatore è particolarmente utile nelle distribuzioni asimmetriche, poiché non è influenzato da valori estremi...., moda)
- Classifica (minimo, massimo)
- Propagazione (Percentili, Intervallo interquartile e deviazione standard).
Queste non sono le uniche cose statistiche che devono essere calcolate., Ma possiamo anche calcolare più cose..
Esempi di dati di intervallo:
- Temperatura (°C o F, ma non Kelvin)
- Datteri (1055, 1297, 1976, eccetera.)
- Intervallo di tempo su un orologio di 12 ore (6 un. M., 6 P. M.)
Dati sulle relazioni
1. Questi dati sono anche nelle unità ordinate che hanno la stessa differenza..
2. I valori del rapporto sono gli stessi dei valori dell'intervallo, Ma l'unica differenza è che i dati del rapporto hanno uno zero assoluto.. Ad esempio, altezza, il peso, lunghezza, eccetera.
3. Questi sono misurati e ordinati con elementi equidistanti con uno zero significativo e non saranno mai negativi come i dati dell'intervallo..
Capiamo questo con un esempio eccezionale: MisurareIl "misura" È un concetto fondamentale in diverse discipline, che si riferisce al processo di quantificazione delle caratteristiche o delle grandezze degli oggetti, fenomeni o situazioni. In matematica, Utilizzato per determinare le lunghezze, Aree e volumi, mentre nelle scienze sociali può riferirsi alla valutazione di variabili qualitative e quantitative. L'accuratezza della misurazione è fondamentale per ottenere risultati affidabili e validi in qualsiasi ricerca o applicazione pratica.... de alturas.
L'altezza può essere misurata in unità come i centimetri, pollici, metri o piedi e non è possibile avere un valore di altezza negativo.
4. Ci illumina sull'ordine delle variabili, I contrasti tra loro, e hanno assolutamente zero.
5. I dati del rapporto sono fondamentalmente gli stessi dei dati degli intervalli, a parte zero significa nessuno.
6. Le statistiche descrittive che possiamo calcolare per i dati di rapporto sono le stesse dei dati di intervallo come:
- Misure di tendenza core (media, mediano, moda)
- Classifica (minimo, massimo)
- Propagazione (Percentili, Intervallo interquartile e deviazione standard).
Esempio di dati di relazione:
- Età (a partire dal 0 anni a 100+)
- Temperatura (in Kelvin, ma non in °C o F)
- Intervallo di tempo (Misurato con cronometro o simili)
Per gli esempi precedenti di dati di rapporto, Vediamo che c'è un punto zero reale e significativo come l'età di una persona, Zero assoluto, la distanza calcolata da un punto o tempo specifico, Hanno tutti zeri reali.
NOTA:
Se scegliamo soggettivamente il punto zero della scala, Quindi a quel punto i dati non possono essere dati di rapporto e dovrebbero essere dati di intervallo.
Note finali
Grazie per aver letto!
Spero che ti sia piaciuto l'articolo e che tu abbia aumentato le tue conoscenze sui tipi di dati nelle statistiche..
Per favore sentiti libero di contattarmi su E-mail
Tutto ciò che non è stato menzionato o vuoi condividere i tuoi pensieri? Sentiti libero di commentare qui sotto e ti ricontatterò.
Per gli articoli rimanenti, Chiedi a Collegamento.
Circa l'autore
Aashi Goyal
Attualmente, Sto perseguendo il mio Bachelor of Technology (B.Tech) in Ingegneria Elettronica e delle Comunicazioni da Universidad Guru Jambheshwar (GJU), Hisar. Sono molto entusiasta della statistica e della scienza dei dati..
I media mostrati in questo articolo sui tipi di dati nelle statistiche non sono di proprietà di Analytics Vidhya e vengono utilizzati a discrezione dell'autore..
Imparentato
Articoli correlati:
- 4 tipos de empresas que transforman el análisis de datos cuantitativos
- Statistiche per la scienza dei dati | Una guida per principianti alle statistiche per la scienza dei dati
- Statistiche per la scienza dei dati | Comprendere le statistiche
- Statistiche in Excel | 10 funzioni statistiche in Microsoft Excel