introduzione
Invece di iniziare con la definizione di statistica, Voglio iniziare con la citazione dalla definizione di statistica di Karl Pearson, “La statistica è la
grammatica della scienza".
Recentemente, tutti parlano di dati. Dopo aver sentito la parola “Dati” il Le domande di base che sorgono nella nostra mente sono,
Che cosa sono i dati??
Come vengono raccolti i dati??
Come possono essere analizzati i dati??
Come vengono interpretati i dati??
Per rispondere a tutte queste domande, il termine “Statistiche” Usato. La statistica è lo strumento fondamentale e importante per elaborare i dati. Veniamo ora alla definizione di statistica, si tratta della compilazione, descrittivo, analisi dei dati e conclusione.
Ci sono due tipi di statistiche, Statistica descrittiva e inferenziale.
Sopra Statistiche descrittive, dall'osservazione data, i dati sono riassunti. La sintesi viene effettuata considerando il campione di popolazione utilizzando la media o la deviazione standard.
Ci sono quattro diverse categorie in Statistiche descrittive. Figlio,
- MisurareIl "misura" È un concetto fondamentale in diverse discipline, che si riferisce al processo di quantificazione delle caratteristiche o delle grandezze degli oggetti, fenomeni o situazioni. In matematica, Utilizzato per determinare le lunghezze, Aree e volumi, mentre nelle scienze sociali può riferirsi alla valutazione di variabili qualitative e quantitative. L'accuratezza della misurazione è fondamentale per ottenere risultati affidabili e validi in qualsiasi ricerca o applicazione pratica.... de frecuencia
- Misura della dispersione
- Misura della tendenza centrale
- Misurazione della posizione.
In base al numero di volte in cui si è verificato un particolare dato, la misurazione della frequenza è definita. La misura della dispersione può essere definita in base al range, la varianza, la deviazione standard, eccetera. Media, il medianoLa mediana è una misura statistica che rappresenta il valore centrale di un insieme di dati ordinati. Per calcolarlo, I dati sono organizzati dal più basso al più alto e viene identificato il numero al centro. Se c'è un numero pari di osservazioni, I due valori fondamentali sono mediati. Questo indicatore è particolarmente utile nelle distribuzioni asimmetriche, poiché non è influenzato da valori estremi...., la modalità e l'asimmetria dei rispettivi dati sono incluse nella misura della tendenza centrale. Finalmente, in base al percentile e al quartile si misura la posizione.
Poi guardando Statistica inferenziale, una volta raccolti i dati, tabulare e analizzare, il sommario o l'inferenza è derivato usando le statistiche inferenziali. Le inferenze sono tratte in base alla variazione del campione e all'errore di osservazione.
Sulla base delle informazioni e delle conclusioni tratte dal campione, le statistiche inferenziali ci aiutano a prevedere e stimare i risultati per la popolazione.
ANALISI DEI DATI STATISTICI
Le statistiche vengono utilizzate in una varietà di settori nella nostra vita quotidiana per analizzare i dati corretti. Sulla base dell'interpretazione, si intraprendono passi di sviluppo sia nel settore pubblico che in quello privato.
Prima di iniziare l'analisi dei dati, ci sono alcune cose da ricordare.
Definisci la tua domanda, raccogliere i dati giusti, capire i dati, dati puliti, analizzare i dati e infine interpretare i risultati delle domande.
Qual è la definizione della domanda?? Per un'organizzazione, passi di miglioramento sono presi dalla precedente analisi dei dati. Per passi migliori, ci saranno degli obiettivi a cui rispondere perfettamente per dare una buona interpretazione. La domanda dovrebbe dare la possibile soluzione al problema. Per quel telaio, una domanda pertinente è più importante. Basato esclusivamente sulle domande, i dati saranno raccolti. Quindi, la definizione della domanda gioca un ruolo importante.
Ad esempio, in una compagnia, se l'attrito dei dipendenti è alto. La soluzione per ridurre il trasferimento del dipendente dell'azienda deve essere tracciata in modo che le variabili di base come l'esperienza del dipendente, il tuo livello soddisfacente, la tua promozione, durata della giornata lavorativa, eccetera., sono determinati in modo che il problema possa essere risolto per dare una possibile soluzione.
Come raccogliere i dati giusti? La raccolta dei dati ha due classificazioni. Uno sono i dati primari e l'altro sono i dati secondari. Nei dati primari, i dati saranno raccolti tramite questionari, inviando e-mail o contattando ogni persona. Ad esempio censimento. Mentre, nei dati secondari, son los datos que ya están disponibles en la fuente secundaria como agencia o Banca datiUn database è un insieme organizzato di informazioni che consente di archiviare, Gestisci e recupera i dati in modo efficiente. Utilizzato in varie applicazioni, Dai sistemi aziendali alle piattaforme online, I database possono essere relazionali o non relazionali. Una progettazione corretta è fondamentale per ottimizzare le prestazioni e garantire l'integrità delle informazioni, facilitando così il processo decisionale informato in diversi contesti.....
Ora, prima di raccogliere i nuovi dati, identificare i dati esistenti disponibili nel database. Oltre a quello, raccoglie i dati rilevanti per soddisfare l'obiettivo. Dopo, organizzare i dati esistenti con nuovi dati per continuare l'analisi. Ad esempio: Prendendo lo stesso caso di licenziamento del dipendente, i dati da raccogliere sono l'esperienza in azienda, ore lavorative, Titolo di studio, distanza da casa, tempo di viaggio, salita, età del dipendente, incrementa o cammina, eccetera., questi È importante raccogliere dati per trovare il motivo dell'abbandono del dipendente. Potrebbero esserci poche variabili che sono già disponibili nel database e nuove variabili possono essere aggiunte secondo necessità.
Perché abbiamo bisogno di capire i dati?? Una volta raccolti i dati, possono esserci molte variabili direttamente o indirettamente correlate all'obiettivo. Per quello, prima dobbiamo studiare su tutte le variabili, ya mare nominale u ordinale. La preparazione dei dati per l'analisi viene eseguita dopo aver compreso i dati. Mentre capiamo, impariamo a conoscere i tipi di dati, righe e colonne, manca dai dati, trova le variabili indipendenti e dipendenti, eccetera.
Potrebbero esserci poche variabili che non sono correlate alla domanda che l'organizzazione ha e tali variabili possono essere utilizzate in futuro per analisi future.. Per trovare questo tipo di variabili, è più importante capire i dati. Prendendo lo stesso esempio di logoramento dei dipendenti, potrebbero esserci dati relativi alla famiglia, come membri della famiglia, anni di esperienza in una precedente azienda, stato sociale, eccetera., y cada variabileIn statistica e matematica, un "variabile" è un simbolo che rappresenta un valore che può cambiare o variare. Esistono diversi tipi di variabili, e qualitativo, che descrivono caratteristiche non numeriche, e quantitativo, che rappresentano quantità numeriche. Le variabili sono fondamentali negli esperimenti e negli studi, poiché consentono l'analisi delle relazioni e dei modelli tra elementi diversi, facilitare la comprensione di fenomeni complessi.... debe entenderse de manera que dividir los datos de tal manera por responder a la pregunta.
Come viene eseguita la pulizia dei dati?? La pulizia dei dati è il processo di modifica dei dati, rimuovere le variabili duplicate e creare variabili fittizie se necessario. Rimuovi le colonne indesiderate che non sono correlate alla domanda. Se la pulizia dei dati non è adeguata, può portare a una minore precisione del modello e può portare a conclusioni fuorvianti.
Una volta completata la pulizia dei dati, i dati corretti per rispondere alla domanda sono pronti. La manipolazione dei dati viene eseguita in molti modi, come tracciare i dati, creare tabelle pivot per le variabili, correlazione, regressione e rilevamento di valori anomali. Il processo può aver luogo. Durante la fase di movimentazione, potrebbe essere necessario continuare con un set di dati esistente o eliminare alcuni set di dati o potrebbe essere necessario aggiungere altri dati per rispondere alla domanda. Dopo tutte queste fasi, i dati richiesti saranno pronti per l'analisi.
Come analizzare i dati? Quando si parla di analisi, l'essenziale è la selezione dei modelli. La selezione del modello gioca un ruolo importante nell'analisi dei dati e nella risposta all'obiettivo. La definizione delle variabili dipendenti e indipendenti è la fase importante nell'analisi dei dati.. Attualmente, le tecniche di apprendimento automatico sono utilizzate per l'analisi dei dati, in modo che le previsioni e le interpretazioni possano essere fatte facilmente. Ma ancora, alcuni obiettivi possono essere risolti direttamente durante l'esecuzione della visualizzazione dei dati e dell'analisi statistica di base. Gli strumenti utilizzati per analizzare i dati sono, Pitone, Eccellere, programmazione R, SPSS, STATA, eccetera.,
Correlazione è usato per trovare la relazione o l'associazione tra due o più variabili. La correlazione è tra i valori -1 un +1. L'interpretazione è che, se la correlazione è +1 allora è fortemente correlato positivamente, -1 allora è fortemente correlato negativamente e 0 implica che non vi è alcuna correlazione. La correlazione funziona sia per dati quantitativi che qualitativi.
Arrivando a regressione, questa analisi viene utilizzata quando abbiamo bisogno di trovare le dipendenze di una variabile dall'altra. Il valore di regressione è compreso tra 0 e 1. Se il valore di regressione è 1, quindi è una misura perfetta e 0, quindi non va bene. Il modello predittivo può essere eseguito utilizzando l'analisi di regressione. Questo utilizza anche dati quantitativi e qualitativi. Esistono due tipi di analisi di regressione. Regressione lineare e regressione lineare multipla.
Sopra Regressione lineare, ha una variabile dipendente e una variabile indipendente. Ad esempio, se il prezzo è basso, le vendite saranno alte. In caso di regressione lineare multipla modello, ha una variabile indipendente e diverse variabili dipendenti. Ad esempio, il prezzo della casa dipende dal numero di stanze della casa, area di ogni stanza, numero di posti auto, installazioni, Posizione, eccetera.
In caso di Analisi di sopravvivenza, se i dati si riferiscono al momento in cui si è verificato un evento, allora si può applicare l'analisi della sopravvivenza. L'evento avrà il risultato come 0 oh 1. Ad esempio, la sopravvivenza del paziente da un attacco di cuore può essere denotata da 0 oh 1. 0 denota la persona che non è sopravvissuta e 1 denota che è sopravvissuto. Questo può essere previsto prendendo le variabili come età, fumatore o non fumatore, persona che vive in aree urbane o rurali, avere la pressione sanguigna o no. Sulla base di tutti i fattori che vengono presi in considerazione, lo stato di sopravvivenza della persona può essere stimato. Attualmente, l'analisi di sopravvivenza può essere applicata nel caso di pazienti COVID.
Finalmente arriviamo alla parte di Tecniche di apprendimento automatico, come Random Forest, Albero decisionale, KNN, eccetera., può essere applicato nel caso della tecnica di previsione e classificazione. Sull'esempio del logoramento dei dipendenti, il targeting del dipendente che può lasciare l'azienda può essere determinato utilizzando la tecnica di classificazione. Vari modelli possono essere sviluppati e, in base alla precisione dei modelli, puoi determinare quale modello può prevedere il futuro abbandono dei dipendenti. Se la precisione è maggiore, quel particolare modello può essere utilizzato per prevedere i dati futuri.
Interpretazione il risultato: Dopo aver analizzato i dati, è ora di interpretare il risultato. Quando si interpreta il risultato, controllare se l'analisi ha risposto a tutte le domande che sono state formulate, i dati raccolti hanno aiutato nell'analisi, e dall'interpretazione si ricava un risultato positivo per il miglioramento dell'obiettivo. Quando si considera il nostro esempio di logoramento dei dipendenti, la parte di analisi dovrebbe suggerire alcuni passaggi o miglioramenti migliori per ridurre l'attrito dei dipendenti dall'azienda.
Queste sono le basi più importanti da fare e da osservare quando si esegue l'analisi statistica dei dati.
Finalmente, Vorrei citare le parole di Seth Godin: “I dati non sono utili finché non vengono convertiti in informazioni “
Spero che tutti abbiano trovato alcune informazioni di base sulle statistiche e sull'analisi dei dati utilizzando le statistiche.
Il supporto mostrato in questo articolo non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.