Este artículo fue publicado como parte del Blogatón de ciencia de datos
Tabla de contenidos
Echemos un vistazo rápido a este blog.
→ ¿Qué es una serie temporalUna serie temporal es un conjunto de datos recogidos o medidos en momentos sucesivos, generalmente en intervalos de tiempo regulares. Este tipo de análisis permite identificar patrones, tendencias y ciclos en los datos a lo largo del tiempo. Su aplicación es amplia, abarcando áreas como la economía, la meteorología y la salud pública, facilitando la predicción y la toma de decisiones basadas en información histórica....?
→ Escenarios de la vida real de series de tiempo
→ Análisis de series de tiempo
→ Pronóstico
→ Tipos de pronóstico
1) Pronóstico cuantitativo
2) Pronóstico cualitativo
→ Regresión frente a series de tiempo
→ Componentes de series temporales
→ Análisis de datos de series de tiempo de kaggle
→ Trazar el gráfico de series de tiempo
¿Qué es una serie temporal?
La serie de tiempo es una secuencia o serie de puntos de datos en los que el componente de tiempo está involucrado a lo largo de la ocurrencia.
Ejemplo de datos de series de tiempo
Industria de la salud – Monitorización de la presión arterial, monitorización de la frecuencia cardíaca.
Medio ambiente – Temperatura global y niveles de contaminación del aire.
Sociedad – Tasas de natalidad durante un período de tiempo, población, etc.
https://www.google.com/url?
¿Qué es el análisis de series de tiempo?
El análisis de estos datos de series de tiempo con determinadas herramientas y técnicas se denomina análisis de series de tiempo.
Los visitantes diarios del restaurante son predichos por esta serie de datos de tiempo. Para que la dirección del restaurante pueda nombrar y acomodar al personal según el número de visitantes.
Previsión
La previsión es el proceso de realizar predicciones a partir de los datos históricos para que puedan predecir el futuro a partir de los datos pasados y presentes.
Tipos de pronóstico:
1) Pronóstico cuantitativo
2) Pronóstico cualitativo
Veamos que es
1) Pronóstico cuantitativo
El pronóstico cuantitativo se realiza en base a los datos históricos (i, e) Datos pasados y presentes, principalmente datos numéricos. A través de estos datos históricos, utilizamos métodos estadísticos y, por lo tanto, podemos predecir con menor sesgo.
2) Pronóstico cualitativo
El pronóstico cualitativo se realiza en función de la opinión y el juicio de los expertos en la materia y los clientes. ¿Por qué dependemos del juicio en lugar de los datos? Porque en algunos casos, los datos anteriores no están disponibles o no son claros. así que aquí dependemos del juicio y las opiniones.
Es posible que tenga algunas dudas sobre la regresión y las series de tiempo. Ambos tienen algunas similitudes y diferencias.
Regresión frente a series de tiempo
El análisis de regresión y el análisis de series de tiempo se realizan sobre variables continuas.
Regresión
→ Es la relación entre variables dependientes e independientes.
→ La variableEn estadística y matemáticas, una "variable" es un símbolo que representa un valor que puede cambiar o variar. Existen diferentes tipos de variables, como las cualitativas, que describen características no numéricas, y las cuantitativas, que representan cantidades numéricas. Las variables son fundamentales en experimentos y estudios, ya que permiten analizar relaciones y patrones entre diferentes elementos, facilitando la comprensión de fenómenos complejos.... objetivo es continua.
→ Esto implica encontrar patrones en los datos y predecir el objetivo con este patrón.
Series de tiempo
→ Es la serie de puntos de datos asociados con el tiempo.
→ La variable objetivo es continua.
→ Esto implica encontrar tendencias en los datos y pronosticar el futuro con esta tendencia.
Serie temporal: https://i1.wp.com/statisticsbyjim.com/wp-content/uploads/2020/07/TimeSeriesTrade.png?fit=576%2C384&ssl=1
Componentes de series de tiempo
El gráfico de series de tiempo ayuda a resaltar la tendencia y el comportamiento de los datos a lo largo del tiempo para construir un modelo más confiable. Para comprender estos patrones, debemos estructurar estos datos y desglosarlos en varios factores. Usamos varios componentes para desglosar estos datos. Son,
Roturas estructurales
Tendencia
Estacionalidad
Ciclicidad
Ruido
Nivel
1) Roturas estructurales
Es un componente que muestra algún cambio repentino en los datos de la serie temporal. Esta ruptura estructural afecta la confiabilidad de los resultados. Deben utilizarse métodos estadísticos para identificar las rupturas estructurales.
2) Tendencia
Los datos de series de tiempo pueden tener algo que sea proporcional al período de tiempo. Ahí ocurre la tendencia. En resumen, «Tendencia» es la demostración de si la serie de tiempo se ha movido hacia arriba o hacia abajo durante un período de tiempo. La confiabilidad de los resultados de las series de tiempo se basa en la correcta identificación de las tendencias de tiempo.
A continuación, se muestra un ejemplo, los ingresos mensuales de una empresa. Esto muestra una tendencia creciente
3) Estacionalidad
La estacionalidad también es un componente en el que los datos de la serie temporal muestran un patrón regular durante un intervalo de tiempo. Se repite después del intervalo de tiempo fijo.
(Un ejemplo de una serie temporal con estacionalidad son las ventas, que a menudo aumentan cada 20 días)
4) Ciclicidad
La ciclicidad es el componente en el que los datos de la serie temporal se repiten después de un intervalo de tiempo. El intervalo no se fija aquí.
Ejemplo:
La demanda de electricidad por semana se representa en un gráfico de series de tiempo. La demanda por 2 semanas se repite cíclicamente. Esto representa la ciclicidad.
https://robjhyndman.com/hyndsight/2011-12-14-cyclicts_files/figure-html/unnamed-chunk-3-1.png
5) ruido
El ruido es la fluctuación aleatoria en los datos de la serie temporal. No podemos considerarlos para predecir el futuro.
6) Nivel
La serie de tiempo promedio se llama nivel.
Análisis de datos de series de tiempo de kaggle:
En este análisis, he utilizado Kaggleconjunto de datos. Kaggle es una plataforma donde podemos encontrar conjuntos de datos, cuadernos y otros tipos de cosas relacionadas con la ciencia de datos. También se organizan competiciones para la práctica.
Conjunto de datos utilizado en este análisis: Conjunto de datos de inicio de serie temporal
Leer el conjunto de datos
import pandas as pd data = pd.read_csv('/content/sample_data/Month_Value_1.csv') data.head()
Limpieza del conjunto de datos:
Este conjunto de datos contiene 5 columnas y 96 filas.
Las columnas son
[0] – Período
[1] – Ingresos
[2] – Cantidad de ventas
[3] – Costo_promedio
[4] – El_payor_anual_promedio_de_la_región
Descripción de cada columna para decidir cuál es importante
Período: contiene el período del modelo. La fecha sabia mensual de 2015 a 2020 se especifica aquí.
Ingresos: los ingresos de la empresa para cada mes desde 2015 hasta 2020.
Sales_quantity: cantidad de ventas de la empresa
Average_cost: coste medio de producción
The_average_annual_payroll_of_the_region: el número promedio de empleados en la región por año.
Trazar el gráfico de líneasEl gráfico de líneas es una herramienta visual utilizada para representar datos a lo largo del tiempo. Consiste en una serie de puntos conectados por líneas, lo que permite observar tendencias, fluctuaciones y patrones en los datos. Este tipo de gráfico es especialmente útil en áreas como la economía, la meteorología y la investigación científica, facilitando la comparación de diferentes conjuntos de datos y la identificación de comportamientos a lo... para 5 columnas
data.plot.line(x=none,y=none)
Contiene todos los datos de 5 columnas. Entonces no da una vista exacta. Entonces
Limpiemos el conjunto de datos.
Podemos analizar la serie temporal de ingresos de 2015 a 2020 y eliminar todas las demás columnas ahora.
data = data.drop('Sales_quantity', 1) data = data.drop('Average_cost', 1) data = data.drop('The_average_annual_payroll_of_the_region', 1)
La sintaxis para eliminar la columna es
dataframe.drop('Column_name',1)
donde 1 es el número del eje (0 para filas y 1 para columnas)
Ahora solo tenemos columnas de período e ingresos para el análisis.
Tracemos la gráfica
data.plot.line(x=None,y=None)
Este gráfico de series de tiempo muestra la tendencia creciente. Entonces, los ingresos de la empresa aumentan de 2015 a 2020.
Puede echar un vistazo a este cuaderno de la serie temporal para ver el código:
Cuaderno de conjunto de datos de inicio de serie temporal
Notas finales
Hemos visto algunos conceptos de análisis de series de tiempo y analizamos el conjunto de datos de inicio de Kaggle para series de tiempo.
¡Gracias por leer!
Espero que haya disfrutado del artículo y haya aumentado sus conocimientos sobre el análisis de series de tiempo. Por favor no dude en ponerse en contacto conmigo a [email protected] Linkedin
Quieres compartir tus pensamientos? Siéntete libre de comentar abajo
Sobre el Autor
Mohamed Illiyas
Actualmente, estoy cursando mi Licenciatura en Ingeniería (BE) en Ciencias de la Computación de la Escuela de Ingeniería del Gobierno, Srirangam, Tamil Nadu. Estoy muy entusiasmado con las estadísticas, el aprendizaje automático y la ciencia de datos.
Conéctate conmigo en Linkedin Mohamed Illiyas
Los medios que se muestran en este artículo que explican cómo implementar la aplicación Streamlit en Heroku no son propiedad de DataPeaker y se utilizan a discreción del autor.