Analisi delle serie temporali | Qual è la serie temporale?? Analisi delle serie temporali in Python

Contenuti

Questo articolo è stato pubblicato nell'ambito del Blogathon sulla scienza dei dati

Sommario

Diamo una rapida occhiata a questo blog.

→ ¿Qué es una Serie storiche?

→ Scenari di serie temporali reali

→ Analisi delle serie temporali

→ Previsione

→ Tipi di previsione

1) Previsione quantitativa

2) Previsione qualitativa

→ Regressione rispetto a serie temporali

→ Componenti delle serie temporali

→ Analisi dei dati delle serie temporali di Kaggle

→ Traccia il grafico delle serie temporali

Che cos'è una serie temporale??

La serie temporale è una sequenza o una serie di punti dati in cui la componente temporale è coinvolta durante l'occorrenza.

Esempio di dati di serie temporali

Industria sanitaria – Monitoraggio della pressione sanguigna, monitoraggio della frequenza cardiaca.

Ambiente – Temperatura globale e livelli di inquinamento atmosferico.

Società – Tassi di natalità in un periodo di tempo, popolazione, eccetera.

51945untitled20design208-8805687

https://www.google.com/url?

Che cos'è l'analisi delle serie temporali??

L'analisi di questi dati di serie temporali con determinati strumenti e tecniche è denominata analisi delle serie temporali..

I visitatori giornalieri del ristorante sono previsti da questa serie di dati temporali. In modo che la direzione del ristorante possa nominare e ospitare il personale in base al numero di visitatori.

Previsione

La previsione è il processo di fare previsioni dai dati storici in modo da poter prevedere il futuro dai dati passati e presenti.

Tipi di previsione:

1) Previsione quantitativa

2) Previsione qualitativa

Vediamo di cosa si tratta

1) Previsione quantitativa

La previsione quantitativa è fatta sulla base di dati storici (io, e) Dati passati e presenti, principalmente dati numerici. Attraverso questi dati storici, usiamo metodi statistici e, così, possiamo prevedere con meno pregiudizi.

2) Previsione qualitativa

La previsione qualitativa è fatta sulla base dell'opinione e del giudizio di esperti in materia e clienti. Perché ci affidiamo al giudizio invece che ai dati?? Perché in alcuni casi, i dati di cui sopra non sono disponibili o non sono chiari. quindi qui dipendiamo dal giudizio e dalle opinioni.

Potresti avere dei dubbi sulla regressione e le serie temporali. Entrambi hanno alcune somiglianze e differenze.

Regressione rispetto alle serie temporali

L'analisi di regressione e l'analisi delle serie temporali vengono eseguite su variabili continue.

Regressione

→ È la relazione tra variabili dipendenti e indipendenti.

→ La variabile objetivo es continua.

→ Ciò comporta la ricerca di modelli nei dati e la previsione dell'obiettivo con questo modello.

62642untitled20design202-6372751
Regressione

serie temporali

→ È la serie di punti dati associati al tempo.

→ La variabile target è continua.

→ Ciò comporta la ricerca di tendenze nei dati e la previsione del futuro con questa tendenza.

82932untitled20design209-7667099

serie temporali: https://i1.wp.com/statisticsbyjim.com/wp-content/uploads/2020/07/TimeSeriesTrade.png?misura=576,384&ssl=1

Componenti delle serie temporali

Il grafico delle serie temporali aiuta a evidenziare l'andamento e il comportamento dei dati nel tempo per costruire un modello più affidabile. Per capire questi schemi, dobbiamo strutturare questi dati e suddividerli in diversi fattori. Usiamo diversi componenti per scomporre questi dati. Figlio,

Rotture strutturali

Tendenza

Stagionalità

Ciclicità

Rumore

Livello

1) Rotture strutturali

È un componente che mostra qualche cambiamento improvviso nei dati delle serie temporali. Questa rottura strutturale influisce sull'affidabilità dei risultati.. I metodi statistici dovrebbero essere usati per identificare le rotture strutturali.

38862untitled20design2010-7380476
ROTTURE STRUTTURALI

2) Tendenza

I dati delle serie temporali possono avere qualcosa che è proporzionale al periodo di tempo. Lì si verifica la tendenza. In sintesi, “Tendenza” è la dimostrazione se la serie temporale è aumentata o diminuita in un periodo di tempo. L'affidabilità dei risultati delle serie temporali si basa sulla corretta identificazione delle tendenze temporali.

Prossimo, viene mostrato un esempio, il reddito mensile di un'azienda. Questo mostra una tendenza in aumento

37722untitled20design207-1968231

3) Stagionalità

La stagionalità è anche un componente in cui i dati delle serie temporali mostrano uno schema regolare su un intervallo di tempo.. Si ripete dopo un intervallo di tempo fisso.

(Un esempio di una serie temporale con stagionalità sono le vendite, che spesso aumentano ogni 20 giorni)

89766untitled20design2012-5470355
https://www.vosesoftware.com/riskwiki/images/image1858.gif

4) Ciclicità

La ciclicità è la componente in cui i dati della serie temporale si ripetono dopo un intervallo di tempo. L'intervallo non è impostato qui.

Esempio:

La domanda di elettricità a settimana è tracciata su un grafico delle serie temporali. La domanda di 2 settimane si ripete ciclicamente. Questo rappresenta la ciclicità.

95216untitled20design2013-5170449

https://robjhyndman.com/hyndsight/2011-12-14-cyclicts_files/figure-html/unnamed-chunk-3-1.png

5) rumore

Il rumore è la fluttuazione casuale nei dati delle serie temporali. Non possiamo considerarli per predire il futuro.

6) Livello

La serie temporale media è chiamata livello.

Analisi dei dati delle serie temporali di Kaggle:

In questa analisi, ho usato Kaggleset di dati. Kaggle è una piattaforma in cui possiamo trovare set di dati, notebook e altri tipi di elementi correlati alla scienza dei dati. Vengono inoltre organizzati concorsi per la pratica.

Set di dati utilizzato in questa analisi: Set di dati di avvio di serie temporali

Leggi il set di dati

import pandas as pd
data = pd.read_csv('/contenuto/sample_data/Month_Value_1.csv")
data.head()

52781senza titolo20design203-1947272

Pulizia del set di dati:

78363senza titolo20design204-6354263

Questo set di dati contiene 5 colonne e 96 righe.

Le colonne sono

[0] – Periodo

[1] – Reddito

[2] – Importo delle vendite

[3] – Costo_promedio

[4] – El_payor_anual_promedio_de_la_región

Descrizione di ogni colonna per decidere quale è importante

Periodo: contiene il periodo del modello. La data mensile saggia di 2015 un 2020 è specificato qui.

Reddito: le entrate dell'azienda per ogni mese da 2015 fino a 2020.

Sales_quantity: importo delle vendite dell'azienda

Average_cost: costo medio di produzione

The_media_annual_payroll_of_the_region: il numero medio di dipendenti nella regione all'anno.

Trazar el grafico a linee per 5 colonne

data.plot.line(x=nessuno,y=nessuno)
21673untitled20design205-1421351

Contiene tutti i dati di 5 colonne. Quindi non dà una visione esatta. Quindi

Ripuliamo il set di dati.

Possiamo analizzare le serie temporali di reddito da 2015 un 2020 e rimuovi tutte le altre colonne ora.

48834untitled20design206-5110545
data = data.drop('Quantità_vendite', 1)
data = data.drop('Costo medio', 1)
data = data.drop('La_media_annuale_pagamento_della_regione', 1)

La sintassi per rimuovere la colonna è

dataframe.drop('Nome_colonna',1)

dove 1 è il numero dell'asse (0 per righe e 1 per colonne)

Ora abbiamo solo colonne periodo e reddito per l'analisi.

Disegniamo il grafico

data.plot.line(x=Nessuno,y=Nessuno)
86311untitled20design207-6232244

Questo grafico delle serie temporali mostra la tendenza in aumento. Quindi, il reddito della società aumenta da 2015 un 2020.

Puoi dare un'occhiata a questo taccuino della serie temporale per vedere il codice:

Taccuino del set di dati di avvio della serie temporale

Note finali

Abbiamo esaminato alcuni concetti di analisi delle serie temporali e analizzato il set di dati di partenza di Kaggle per le serie temporali.

Grazie per aver letto!

Spero che l'articolo ti sia piaciuto e che abbia aumentato la tua conoscenza dell'analisi delle serie temporali. Per favore sentiti libero di contattarmi un [e-mail protetta] Linkedin

Vuoi condividere i tuoi pensieri? sentiti libero di commentare qui sotto

Circa l'autore

Mohamed Illiyas

Attualmente, Sto perseguendo la mia laurea in ingegneria (ESSERE) in Informatica dal Scuola di ingegneria governativa, Srirangam, Tamil Nadu. Sono molto entusiasta delle statistiche, machine learning e data science.

Connettiti con me su Linkedin Mohamed Illiyas

Il supporto mostrato in questo articolo che spiega come implementare l'app Streamlit su Heroku non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.