Augmented Dickey-Fuller(ADF) test:
ADF-GLS test:
내가 수집한(분석한) 데이터는 정규분포 형태이다
내가 수집한(분석한) 데이터는 정규분포가 아닌 형태다
내가 수집한(분석한) 시계열 데이터의 Autocorrelation은 존재하지 않는다
내가 수집한(분석한) 시계열 데이터의 Autocorrelation은 존재한다
내가 수집한(분석한) 시계열 데이터의 Autocorrelation은 존재하지 않는다
내가 수집한(분석한) 시계열 데이터의 Autocorrelation은 존재한다
- 0: 양(Positive)의 Autocorrelation 존재한다
- 4: 음(Negative)의 Autocorrelation 존재한다
내가 수집한(분석한) 시계열 데이터는 등분산이다
내가 수집한(분석한) 시계열 데이터는 등분산이 아니다
In [1]:
import warnings
warnings.filterwarnings('always')
warnings.filterwarnings('ignore')
# System related and data input controls
import os
# Data manipulation and visualization
import pandas as pd
pd.options.display.float_format = '{:,.2f}'.format
pd.options.display.max_rows = 10
pd.options.display.max_columns = 20
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# Modeling algorithms
# General
import statsmodels.api as sm
from scipy import stats
# Model selection
from sklearn.model_selection import train_test_split
# Evaluation metrics
# for regression
from sklearn.metrics import mean_squared_log_error, mean_squared_error, r2_score, mean_absolute_error
In [3]:
location = '../data/Bike_Sharing_Demand_Full.csv'
raw_all = pd.read_csv(location)
raw_all
Out[3]:
In [7]:
raw_all['datetime'] = pd.to_datetime(raw_all['datetime'])
raw_all['DateTime'] = pd.to_datetime(raw_all['datetime'])
In [8]:
if raw_all.index.dtype == 'int64':
raw_all.set_index('DateTime', inplace=True)
In [10]:
raw_all
Out[10]:
In [14]:
raw_all = raw_all.asfreq('H', method='ffill')
raw_all.isnull().sum()
Out[14]:
In [15]:
raw_all[['count']].plot(kind='line', figsize=(20,6), linewidth=3, fontsize=20,
xlim=('2012-01-01', '2012-03-01'), ylim=(0,1000))
plt.title('Time Series of Target', fontsize=20)
plt.xlabel('Index', fontsize=15)
plt.ylabel('Demand', fontsize=15)
plt.show()
In [17]:
sm.tsa.seasonal_decompose(raw_all['count'], model='additive').plot()
plt.show()
In [ ]: