Zeitreihenanalyse | Was ist die Zeitreihe? Zeitreihenanalyse in Python

Teilen auf Facebook
Teilen auf twittern
Teilen auf verlinktin
Teilen auf Telegramm
Teilen auf WhatsApp

Inhalt

Dieser Artikel wurde im Rahmen der Data Science Blogathon

Inhaltsverzeichnis

Werfen wir einen kurzen Blick auf diesen Blog.

→ Was ist eine Zeitreihe?

→ Real-Life-Zeitreihenszenarien

→ Zeitreihenanalyse

→ Prognose

→ Prognosetypen

1) Quantitative Prognose

2) Qualitative Prognose

→ Regression versus Zeitreihen

→ Bestandteile von Zeitreihen

→ Analyse von Kaggle-Zeitreihendaten

→ Zeichnen Sie das Zeitreihendiagramm

Was ist eine Zeitreihe?

Die Zeitreihe ist eine Folge oder Reihe von Datenpunkten, an denen die Zeitkomponente während des gesamten Ereignisses beteiligt ist.

Beispiel für Zeitreihendaten

Gesundheitsindustrie – Blutdrucküberwachung, Herzfrequenzüberwachung.

Umfeld – Globale Temperatur- und Luftverschmutzungswerte.

Die Gesellschaft – Geburtenraten über einen bestimmten Zeitraum, Population, etc.

51945untitled20design208-8805687

https://www.google.com/url?

Was ist Zeitreihenanalyse?

Die Analyse dieser Zeitreihendaten mit bestimmten Tools und Techniken wird als Zeitreihenanalyse bezeichnet..

Tägliche Restaurantbesucher werden von dieser Zeitdatenreihe vorhergesagt. Damit die Restaurantleitung das Personal entsprechend der Besucherzahl benennen und unterbringen kann.

Vorhersage

Forecasting ist der Prozess, Vorhersagen aus historischen Daten zu treffen, damit Sie die Zukunft aus vergangenen und aktuellen Daten vorhersagen können.

Prognosetypen:

1) Quantitative Prognose

2) Qualitative Prognose

Mal sehen was es ist

1) Quantitative Prognose

Die quantitative Prognose basiert auf historischen Daten (ich, e) Vergangene und aktuelle Daten, hauptsächlich numerische Daten. Durch diese historischen Daten, wir verwenden statistische Methoden und, Daher, wir können mit weniger Voreingenommenheit vorhersagen.

2) Qualitative Prognose

Die qualitative Prognose basiert auf der Meinung und dem Urteil von Fachexperten und Kunden. Warum verlassen wir uns auf Urteile statt auf Daten?? Denn in manchen Fällen, obige Daten sind nicht verfügbar oder unklar. hier sind wir also auf urteil und meinungen angewiesen.

Vielleicht haben Sie Zweifel an Regression und Zeitreihen. Beide haben einige Gemeinsamkeiten und Unterschiede.

Regression versus Zeitreihen

Regressionsanalyse und Zeitreihenanalyse werden an kontinuierlichen Variablen durchgeführt.

Rückschritt

→ Es ist die Beziehung zwischen abhängigen und unabhängigen Variablen.

→ Die Zielvariable ist stetig.

→ Dies beinhaltet das Auffinden von Mustern in den Daten und die Vorhersage des Ziels mit diesem Muster.

62642untitled20design202-6372751
Rückschritt

Zeitfolgen

→ Es ist die Reihe von Datenpunkten, die mit der Zeit verbunden sind.

→ Die Zielvariable ist stetig.

→ Dabei geht es darum, Trends in den Daten zu finden und mit diesem Trend die Zukunft vorherzusagen.

82932untitled20design209-7667099

Zeitfolgen: https://i1.wp.com/statisticsbyjim.com/wp-content/uploads/2020/07/TimeSeriesTrade.png?fit=576,384&ssl=1

Zeitreihenkomponenten

Das Zeitreihendiagramm hilft dabei, den Trend und das Verhalten der Daten im Zeitverlauf hervorzuheben, um ein zuverlässigeres Modell zu erstellen. Um diese Muster zu verstehen, wir müssen diese Daten strukturieren und in mehrere Faktoren zerlegen. Wir verwenden mehrere Komponenten, um diese Daten aufzuschlüsseln. Sohn,

Strukturbrüche

Trend

Saisonalität

Zyklizität

Lärm

Niveau

1) Strukturbrüche

Es ist eine Komponente, die eine plötzliche Änderung der Zeitreihendaten anzeigt. Dieser Strukturbruch beeinträchtigt die Zuverlässigkeit der Ergebnisse.. Statistische Methoden sollten verwendet werden, um Strukturbrüche zu identifizieren.

38862untitled20design2010-7380476
STRUKTURURLAUB

2) Trend

Zeitreihendaten können etwas haben, das proportional zum Zeitraum ist. Dort tritt der Trend auf. Zusammenfassend, “Trend” ist der Nachweis, ob sich die Zeitreihe über einen bestimmten Zeitraum nach oben oder unten bewegt hat. Die Zuverlässigkeit der Zeitreihenergebnisse basiert auf der korrekten Identifizierung von Zeittrends.

Dann, ein Beispiel wird gezeigt, das monatliche Einkommen eines Unternehmens. Dies zeigt einen steigenden Trend

37722untitled20design207-1968231

3) Saisonalität

Saisonalität ist auch eine Komponente, bei der die Zeitreihendaten über ein Zeitintervall ein regelmäßiges Muster aufweisen.. Wiederholungen nach dem festen Zeitintervall.

(Ein Beispiel für eine Zeitreihe mit Saisonalität ist der Umsatz, die sich oft mit jedem erhöhen 20 Tage)

89766untitled20design2012-5470355
https://www.vosesoftware.com/riskwiki/images/image1858.gif

4) Zyklizität

Zyklizität ist die Komponente, in der sich die Zeitreihendaten nach einem Zeitintervall wiederholen. Das Intervall wird hier nicht eingestellt.

Beispiel:

Der Strombedarf pro Woche wird in einem Zeitreihendiagramm dargestellt. Die Nachfrage nach 2 Wochen wiederholt sich zyklisch. Dies steht für Zyklizität.

95216untitled20design2013-5170449

https://robjhyndman.com/hyndsight/2011-12-14-cyclicts_files/figure-html/unnamed-chunk-3-1.png

5) Lärm

Rauschen ist die zufällige Fluktuation in den Zeitreihendaten. Wir können nicht davon ausgehen, dass sie die Zukunft vorhersagen.

6) Niveau

Die durchschnittliche Zeitreihe wird als Level bezeichnet.

Kaggle-Zeitreihendatenanalyse:

In dieser Analyse, Ich habe benutzt KaggleDatensatz. Kaggle ist eine Plattform, auf der wir Datensätze finden können, Notebooks und andere datenwissenschaftliche Dinge. Wettbewerbe werden auch zum Üben organisiert.

In dieser Analyse verwendeter Datensatz: Zeitreihen-Startdatensatz

Lesen Sie den Datensatz

Pandas als pd importieren
data = pd.read_csv('/content/sample_data/Monatswert_1.csv')
daten.kopf()

52781untitled20design203-1947272

Datensatzbereinigung:

78363untitled20design204-6354263

Dieser Datensatz enthält 5 Spalten und 96 Reihen.

Die Spalten sind

[0] – Zeitverlauf

[1] – Einkommen

[2] – Verkaufsmenge

[3] – Durchschnittskosten

[4] – Der_durchschnittliche_annual_payer_of_the_region

Beschreibung jeder Spalte, um zu entscheiden, was wichtig ist

Zeitverlauf: enthält die Modellperiode. Das monatliche weise Datum von 2015 ein 2020 hier angegeben.

Einkommen: der Umsatz des Unternehmens für jeden Monat von 2015 bis um 2020.

Verkaufsmenge: Unternehmensverkaufsbetrag

Durchschnittskosten: durchschnittliche Produktionskosten

Die_durchschnittliche_annual_payroll_of_the_region: die durchschnittliche Anzahl der Mitarbeiter in der Region pro Jahr.

Zeichnen Sie das Liniendiagramm für 5 Säulen

data.plot.line(x=keine,y=keine)
21673untitled20design205-1421351

Enthält alle Daten von 5 Säulen. Es gibt also keine genaue Ansicht. Dann

Lass uns den Datensatz bereinigen.

Wir können die Zeitreihen der Einnahmen von . analysieren 2015 ein 2020 und entferne jetzt alle anderen Spalten.

48834untitled20design206-5110545
data = data.drop('Verkaufsmenge', 1)
data = data.drop('Durchschnittskosten', 1)
data = data.drop('Die_durchschnittliche_annual_payroll_of_the_region', 1)

Die Syntax zum Entfernen der Spalte lautet

dataframe.drop('Spaltenname',1)

wo 1 ist die Achsnummer (0 für Reihen und 1 für Spalten)

Jetzt haben wir nur noch Perioden- und Einkommensspalten zur Analyse.

Lass uns die Grafik zeichnen

data.plot.line(x=Keine,y=Keine)
86311untitled20design207-6232244

Dieses Zeitreihendiagramm zeigt den steigenden Trend. Dann, das Einkommen des Unternehmens steigt von 2015 ein 2020.

Sie können einen Blick auf dieses Zeitreihen-Notizbuch werfen, um den Code zu sehen:

Notizbuch für Zeitreihen-Startdatensätze

Abschließende Anmerkungen

Wir haben uns einige Konzepte der Zeitreihenanalyse angeschaut und Kaggles Ausgangsdatensatz für Zeitreihen analysiert.

Danke fürs Lesen!

Ich hoffe, Ihnen hat der Artikel gefallen und Sie haben Ihr Wissen über Zeitreihenanalysen erweitert. Zögern Sie nicht, mich zu kontaktieren ein [E-Mail geschützt] Linkedin

Du möchtest deine Gedanken teilen? Fühlen Sie sich frei, unten zu kommentieren

Über den Autor

Mohamed Illiyas

Heutzutage, Ich studiere meinen Bachelor of Engineering (SEIN) in Informatik von der Staatliche Ingenieurschule, Srirangam, Tamil Nadu. Ich bin sehr gespannt auf die Statistik, Maschinelles Lernen und Datenwissenschaft.

Verbinden Sie sich mit mir auf Linkedin Mohamed Illiyas

Die in diesem Artikel gezeigten Medien zur Implementierung der Streamlit-App auf Heroku sind nicht Eigentum von DataPeaker und werden nach Ermessen des Autors verwendet.

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.