기계학습(Machine Learning) 알고리즘¶

정규화 방법론(Regularized Method, Penalized Method, Contrained Least Squares)¶

“선형회귀 계수(Weight)에 대한 제약 조건을 추가함으로써 모형이 과도하게 최적화되는 현상, 즉 과최적화를 막는 방법”
“과최적화는 계수 크기를 과도하게 증가하는 경향이 있기에, 정규화 방법에서의 제약 조건은 일반적으로 계수의 크기를 제한하는 방법”

정규화 회귀분석 알고리즘¶

0) Standard Regression:

$\hat{\beta} = arg\underset{\hat{\beta}}{min} \Biggl[\displaystyle \sum_{j=1}^t \Bigl(y_j - \displaystyle \sum_{i=0}^k \beta_i x_{ij}\Bigr)^2\Biggr]$

1) Ridge Regression:

정규화조건/패널티/제약조건: 추정계수의 제곱합을 최소로 하는 것

\begin{align*} \hat{\beta} = arg\underset{\hat{\beta}}{min} \Biggl[\displaystyle \sum_{j=1}^t \Bigl(y_j - \displaystyle \sum_{i=0}^k \beta_i x_{ij}\Bigr)^2 + \lambda \displaystyle \sum_{i=0}^k \beta_i^2\Biggr] \ where~\lambda~is~hyper~parameter(given~by~human) \end{align*}

하이퍼파라미터($\lambda$): 기존의 잔차 제곱합과 추가 제약 조건의 비중을 조절하기 위한 하이퍼모수(hyperparameter)
- $\lambda$=0: 일반적인 선형 회귀모형(OLS)
- $\lambda$를 크게 두면 정규화(패널티) 정도가 커지기 때문에 가중치($\beta_i$)의 값들이 커질 수 없음(작아짐)
- $\lambda$를 작게 두면 정규화(패널티) 정도가 작아 지기 때문에 가중치($\beta_i$)의 값들의 자유도가 높아져 커질 수 있음(커짐)

2) Lasso(Least Absolute Shrinkage and Selection Operator) Regression:

정규화조건/패널티/제약조건: 추정계수의 절대값 합을 최소로 하는 것

\begin{align*} \hat{\beta} = arg\underset{\hat{\beta}}{min} \Biggl[\displaystyle \sum_{j=1}^t \Bigl(y_j - \displaystyle \sum_{i=0}^k \beta_i x_{ij}\Bigr)^2 + \lambda \displaystyle \sum_{i=0}^k \left|\beta_i \right|\Biggr] \ where~\lambda~is~hyper~parameter(given~by~human) \end{align*}

3) Elastic Net:

정규화조건/패널티/제약조건: 추정계수의 절대값 합과 제곱합을 동시에 최소로 하는 것

\begin{align*} \hat{\beta} &= arg\underset{\hat{\beta}}{min} \Biggl[\displaystyle \sum_{j=1}^t \Bigl(y_j - \displaystyle \sum_{i=0}^k \beta_i x_{ij}\Bigr)^2 + \lambda_1 \displaystyle \sum_{i=0}^k \left|\beta_i \right| + \lambda_2 \displaystyle \sum_{i=0}^k \beta_i^2\Biggr] \ &where~\lambda_1~and~\lambda_2~are~hyper~parameters(given~by~human) \end{align*}

하이퍼파라미터 특성 및 요약¶

최적 정규화(최적 하이퍼파라미터 추정): 하이퍼파라미터(Hyperparameter)에 따른 검증성능 차이 존재
- Train Set: 하이퍼파라미터가 작으면 작을수록 좋아짐(과최적화)
- Test Set: 하이퍼파라미터가 특정한 범위에 있을때 좋아짐(추정필요)
Summary

Standard:

Ridge: - 알고리즘이 모든 변수들을 포함하려 하기 때문에 계수의 크기가 작아지고 모형의 복잡도가 줄어듬
- 모든 변수들을 포함하려 하므로 변수의 수가 많은 경우 효과가 좋지 않으나 과적합(Overfitting)을 방지하는데 효과적
- 다중공선성이 존재할 경우, 변수 간 상관관계에 따라 계수로 다중공선성이 분산되기에 효과가 높음

LASSO:
- 알고리즘이 최소한의 변수를 포함하여 하기 때문의 나머지 변수들의 계수는 0이됨 (Feature Selection 기능)
- 변수선택 기능이 있기에 일반적으로 많이 사용되는 이점이 있지만 특정변수에 대한 계수가 커지는 단점 존재
- 다중공선성이 존재할 경우, 특정 변수만을 선택하는 방식이라 Ridge에 비해 다중공선성 문제에 효과가 낮음

Elastic Net:
- 큰 데이터셋에서 Ridge와 LASSO의 효과를 모두 반영하기에 효과가 좋음 (적은 데이터셋은 효과 낮음)

파라미터 세팅(실습)

1) “statsmodels”: 선형 회귀모형 클래스의 fit_regularized 메서드를 사용하여 Ridge/LASSO/Elastic Net 계수 추정
- Ridge:
$\lambda_1 = 0,~~0 < \lambda_2 < 1 \\ => L_1 = 0,~~alpha \ne 0$ - **LASSO:** $0 < \lambda_1 < 1,~~\lambda_2 = 0 \\ => L_1 = 1,~~alpha \ne 0$ - **Elastic Net:** $0 < (\lambda_1, \lambda_2) < 1 \\ => 0 < L_1 < 1,~~alpha \ne 0$

2) “sklearn”: 정규화 회귀모형을 위한 Ridge, Lasso, ElasticNet 별도 클래스 제공
- Ridge:
$0 < (\lambda = alpha) < 1$ - [**LASSO:**](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html) $0 < (\lambda = alpha) < 1$ - [**Elastic Net:**](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.ElasticNet.html) $0 < (\lambda_1, \lambda_2) < 1 \\ => 0 < L_1 < 1,~~alpha \ne 0$

# Ridge
fit = Ridge(alpha=0.5, fit_intercept=True, normalize=True, random_state=123).fit(X_train, Y_train)
pred_tr = fit.predict(X_train)
pred_te = fit.predict(X_test)

# LASSO
fit = Lasso(alpha=0.5, fit_intercept=True, normalize=True, random_state=123).fit(X_train, Y_train)
pred_tr = fit.predict(X_train)
pred_te = fit.predict(X_test)

# Elastic Net
fit = ElasticNet(alpha=0.01, l1_ratio=1, fit_intercept=True, normalize=True, random_state=123).fit(X_train, Y_train)
pred_tr = fit.predict(X_train)
pred_te = fit.predict(X_test)

실습¶

import warnings
warnings.filterwarnings('always')
warnings.filterwarnings('ignore')
import pandas as pd
import numpy as np
from sklearn import datasets
import matplotlib.pyplot as plt
from sklearn.linear_model import Ridge, Lasso, ElasticNet

diabetes = datasets.load_diabetes()
X = diabetes.data
y = diabetes.target
print('Data View')
display(pd.concat([pd.DataFrame(y, columns=['diabetes_value']), pd.DataFrame(X, columns=diabetes.feature_names)], axis=1).head())

Data View

	diabetes_value	age	sex	bmi	bp	s1	s2	s3	s4	s5	s6
0	151.0	0.038076	0.050680	0.061696	0.021872	-0.044223	-0.034821	-0.043401	-0.002592	0.019908	-0.017646
1	75.0	-0.001882	-0.044642	-0.051474	-0.026328	-0.008449	-0.019163	0.074412	-0.039493	-0.068330	-0.092204
2	141.0	0.085299	0.050680	0.044451	-0.005671	-0.045599	-0.034194	-0.032356	-0.002592	0.002864	-0.025930
3	206.0	-0.089063	-0.044642	-0.011595	-0.036656	0.012191	0.024991	-0.036038	0.034309	0.022692	-0.009362
4	135.0	0.005383	-0.044642	-0.036385	0.021872	0.003935	0.015596	0.008142	-0.002592	-0.031991	-0.046641

alpha_weight = 0.5
fit = Ridge(alpha=alpha_weight, fit_intercept=True, normalize=True, random_state=123).fit(X, y)
pd.DataFrame(np.hstack([fit.intercept_, fit.coef_]), columns=['alpha = {}'.format(alpha_weight)])

	alpha = 0.5
0	152.133484
1	20.137357
2	-131.242606
3	383.481783
4	244.837872
5	-15.187056
6	-58.344798
7	-174.842798
8	121.985055
9	328.499702
10	110.886036

alpha_weight = 0.5
fit = Lasso(alpha=alpha_weight, fit_intercept=True, normalize=True, random_state=123).fit(X, y)
pd.DataFrame(np.hstack([fit.intercept_, fit.coef_]), columns=['alpha = {}'.format(alpha_weight)])

	alpha = 0.5
0	152.133484
1	0.000000
2	-0.000000
3	471.038733
4	136.507108
5	-0.000000
6	-0.000000
7	-58.319549
8	0.000000
9	408.023324
10	0.000000

result_Ridge = pd.DataFrame()
alpha_candidate = np.hstack([0, np.logspace(-2, 1, 4)])
for alpha_weight in alpha_candidate:
    fit = Ridge(alpha=alpha_weight, fit_intercept=True, normalize=True, random_state=123).fit(X, y)
    result_coef = pd.DataFrame(np.hstack([fit.intercept_, fit.coef_]), columns=['alpha = {}'.format(alpha_weight)])
    result_Ridge = pd.concat([result_Ridge, result_coef], axis=1)
   
result_LASSO = pd.DataFrame()
alpha_candidate = np.hstack([0, np.logspace(-2, 1, 4)])
for alpha_weight in alpha_candidate:
    fit = Lasso(alpha=alpha_weight, fit_intercept=True, normalize=True, random_state=123).fit(X, y)
    result_coef = pd.DataFrame(np.hstack([fit.intercept_, fit.coef_]), columns=['alpha = {}'.format(alpha_weight)])
    result_LASSO = pd.concat([result_LASSO, result_coef], axis=1)
    
result_Ridge.plot(figsize=(10,10), legend=True, ax=plt.subplot(211))
plt.title('Ridge')
plt.xlabel('Columns')
plt.ylabel('coefficients')
plt.legend(fontsize=13)
plt.grid()
result_LASSO.plot(legend=True, ax=plt.subplot(212))
plt.title('LASSO')
plt.xlabel('Columns')
plt.ylabel('coefficients')
plt.legend(fontsize=13)
plt.tight_layout()
plt.grid()
plt.show()

../_images/3_Algorithms_ML_TS_Linear_10_0.png

result_Ridge.T.plot(figsize=(10,10), legend=False, ax=plt.subplot(211))
plt.title('Ridge')
plt.xticks(np.arange(len(result_Ridge.columns)), [i for i in result_Ridge.columns])
plt.ylabel('coefficients')
plt.grid()
result_LASSO.T.plot(legend=False, ax=plt.subplot(212))
plt.title('LASSO')
plt.xticks(np.arange(len(result_Ridge.columns)), [i for i in result_Ridge.columns])
plt.ylabel('coefficients')
plt.tight_layout()
plt.grid()
plt.show()

../_images/3_Algorithms_ML_TS_Linear_11_0.png

회귀분석 알고리즘 정리¶

변수 세팅에 따른 분류:

문제 해결에 따른 분류:

Bagging and Boosting 모델¶

편향-분산 상충관계(Bias-variance Trade-off)¶

1) 편향과 분산의 정의

(비수학적 이해)

편향(Bias): 점추정
- 예측값과 실제값의 차이
- 모델 학습시 여러 데이터로 학습 후 예측값의 범위가 정답과 얼마나 멀리 있는지 측정
편향(Bias(Real)): 모형화(단순화)로 미처 반영하지 못한 복잡성
=> 편향이 작다면 Training 데이터 패턴(복잡성)을 최대반영 의미
=> 편향이 크다면 Training 데이터 패턴(복잡성)을 최소반영 의미
분산(Variance): 구간추정
- 학습한 모델의 예측값이 평균으로부터 퍼진 정도(변동성/분산)
- 여러 모델로 학습을 반복한다면, 학습된 모델별로 예측한 값들의 차이를 측정
분산(Variance(Real)): 다른 데이터(Testing)를 사용했을때 발생할 변화
=> 분산이 작다면 다른 데이터로 예측시 적은 변동 예상
=> 분산이 크다면 다른 데이터로 예측시 많은 변동 예상

(수학적 이해)

\begin{align*} \text{Equation of Error} && Err(x) &= E\Bigl[\bigl(Y-\hat{f}(x)\bigr)^2 \Bigr] \ && &= \Bigl(E[\hat{f}(x)] - f(x)\Bigr)^2 + E \Bigl[\bigl(\hat{f}(x) - E[\hat{f}(x)]\bigr)^2 \Bigr] + \sigma_{\epsilon}^2 \ && &= \text{Bias}^2 + \text{Variance} + \text{Irreducible Error} \end{align*}

2) 편향과 분산의 관계

모델의 복잡도가 낮으면 Bias가 증가하고 Variance가 감소(Underfitting)
: 구간추정 범위는 좁으나 점추정 정확성 낮음
: Training/Testing 모두 예측력이 낮음
모델의 복잡도가 높으면 Bias가 감소하고 Variance가 증가(Overfitting)
: 점추정 정확성은 높으나 구간추정 범위는 넓음
: Training만 잘 예측력 높고 Testing은 예측력 낮음
Bias와 Variance가 최소화 되는 수준에서 모델의 복잡도 선택

3) 편향과 분산 모두를 최소화하는 방법

Bagging vs Boosting¶

앙상블(Ensemble, Ensemble Learning, Ensemble Method)이란 머신러닝에서 여러개의 모델을 학습시켜,
그 모델들의 예측결과들을 이용해 하나의 모델보다 더 나은 값을 예측하는 방법

Bagging(Bootstrap Aggregating):
- 부트스트래핑(Bootstraping): 예측값과 실제값의 차이 중복을 허용한 리샘플링(Resampling)
- 페이스팅(Pasting): 이와 반대로 중복을 허용하지 않는 샘플링
Boosting:
- 성능이 약한 학습기(weak learner)를 여러 개 연결하여 강한 학습기(strong learner)를 만드는 앙상블 학습
- 앞에서 학습된 모델을 보완해나가면서 더나은 모델로 학습시키는 것

-	Bagging	Boosting
특징	병렬 앙상블 모델(각 모델은 서로 독립)	연속 앙상블 모델(이전 모델의 오류 반영)
목적	Variance 감소	Bias 감소
적합한 상황	Low Bias + High Variance	High Bias + Low Variance
Sampling	Random Sampling	Random Sampling with weight on error

Bagging 알고리즘¶

의사결정나무(Decision Tree):

렌덤포레스트(Random Forest): 여러개의 의사결정나무(Decision Tree) 생성한 다음, 각 개별 트리의 예측값들 중 가장 많은 선택을 받은 변수들로 예측하는 알고리즘, 의사결정나무의 CLT버전

# DecisionTree
fit = DecisionTreeRegressor().fit(X_train, Y_train)
pred_tr = fit.predict(X_train)
pred_te = fit.predict(X_test)

# RandomForestRegressor
fit = RandomForestRegressor(n_estimators=100, random_state=123).fit(X_train, Y_train)
pred_tr = fit.predict(X_train)
pred_te = fit.predict(X_test)

Boosting 알고리즘¶

Adaptive Boosting(AdaBoost): 학습된 모델이 과소적합(학습하기 어려운 데이터)된 학습 데이터 샘플의 가중치를 높이면서 더 잘 적합되도록 하는 방식

Gradient Boosting Machine(GBM): 아다부스트 처럼 학습단계 마다 데이터 샘플의 가중치를 업데이트 하는 것이 아니라, 학습 전단계 모델에서의 잔차(Residual)을 모델에 학습시키는 방법

XGBoost(eXtreme Gradient Boosting): 높은 예측력으로 많은 양의 데이터를 다룰 때 사용되는 부스팅 알고리즘

LightGBM: 현존하는 부스팅 알고리즘 중 가장 빠르고 높은 예측력 제공

Algorithms	Specification	Others
AdaBoost	다수결을 통한 정답분류 및 오답에 가중치 부여	-
GBM	손실함수(검증지표)의 Gradient로 오답에 가중치 부여	-
XGBoost	GMB대비 성능향상 시스템(CPU, Mem.) 자원 효율적 사용	2014년 공개
LightGBM	XGBoost대비 성능향상 및 자원소모 최소화 XGBoost가 처리하지 못하는 대용량 데이터 학습가능 근사치분할(Approximates the Split)을 통한 성능향상	2016년 공개

# GradientBoostingRegression
fit = GradientBoostingRegressor(alpha=0.1, learning_rate=0.05, loss='huber', criterion='friedman_mse',
                                           n_estimators=1000, random_state=123).fit(X_train, Y_train)
pred_tr = fit.predict(X_train)
pred_te = fit.predict(X_test)

# XGBoost
fit = XGBRegressor(learning_rate=0.05, n_estimators=100, random_state=123).fit(X_train, Y_train)
pred_tr = fit.predict(X_train)
pred_te = fit.predict(X_test)

# LightGMB
fit = LGBMRegressor(learning_rate=0.05, n_estimators=100, random_state=123).fit(X_train, Y_train)
pred_tr = fit.predict(X_train)
pred_te = fit.predict(X_test)

	time	value
0	1,959.00	315.42
1	1,959.08	316.31
2	1,959.17	316.50
3	1,959.25	317.56
4	1,959.33	318.13

Dep. Variable:	value	R-squared:	0.969
Model:	OLS	Adj. R-squared:	0.969
Method:	Least Squares	F-statistic:	1.479e+04
Date:	Fri, 31 Jul 2020	Prob (F-statistic):	0.00
Time:	22:45:19	Log-Likelihood:	-1113.5
No. Observations:	468	AIC:	2231.
Df Residuals:	466	BIC:	2239.
Df Model:	1
Covariance Type:	nonrobust

	coef	std err	t	P>\|t\|	[0.025	0.975]
Intercept	-2249.7742	21.268	-105.784	0.000	-2291.566	-2207.982
time	1.3075	0.011	121.634	0.000	1.286	1.329

Omnibus:	15.857	Durbin-Watson:	0.212
Prob(Omnibus):	0.000	Jarque-Bera (JB):	7.798
Skew:	0.048	Prob(JB):	0.0203
Kurtosis:	2.375	Cond. No.	3.48e+05

	time	value
0	1,959.00	315.42
1	1,959.08	316.31
2	1,959.17	316.50
3	1,959.25	317.56
4	1,959.33	318.13

Omnibus:	66.659	Durbin-Watson:	0.306
Prob(Omnibus):	0.000	Jarque-Bera (JB):	17.850
Skew:	-0.116	Prob(JB):	0.000133
Kurtosis:	2.072	Cond. No.	1.35e+11

	Stationarity_adf
Test Statistics	-2.53
p-value	0.11
Used Lag	13.00
Used Observations	454.00
Critical Value(1%)	-3.44
Maximum Information Criteria	260.10

	Stationarity_kpss
Test Statistics	0.17
p-value	0.10
Used Lag	18.00
Critical Value(10%)	0.35

	Stationarity_adf
Test Statistics	-5.14
p-value	0.00
Used Lag	12.00
Used Observations	454.00
Critical Value(1%)	-3.44
Maximum Information Criteria	271.87

	Stationarity_kpss
Test Statistics	0.04
p-value	0.10
Used Lag	18.00
Critical Value(10%)	0.35

	time	value	month
67	1979-08-31	1354	8
68	1979-09-30	1333	9
69	1979-10-31	1492	10
70	1979-11-30	1781	11
71	1979-12-31	1915	12

	Stationarity_adf
Test Statistics	-0.57
p-value	0.88
Used Lag	12.00
Used Observations	59.00
Critical Value(1%)	-3.55
Maximum Information Criteria	841.38

	Stationarity_kpss
Test Statistics	0.65
p-value	0.02
Used Lag	12.00
Critical Value(10%)	0.35

Omnibus:	19.630	Durbin-Watson:	1.374
Prob(Omnibus):	0.000	Jarque-Bera (JB):	49.630
Skew:	0.787	Prob(JB):	1.67e-11
Kurtosis:	6.750	Cond. No.	1.00

	Stationarity_adf
Test Statistics	-5.84
p-value	0.00
Used Lag	0.00
Used Observations	71.00
Critical Value(1%)	-3.53
Maximum Information Criteria	812.36

	coef	std err	t	P>\|t\|	[0.025	0.975]
Intercept	4.77e+04	3482.902	13.696	0.000	4.09e+04	5.45e+04
time	-49.1907	3.521	-13.971	0.000	-56.110	-42.272
I(time ** 2)	0.0128	0.001	14.342	0.000	0.011	0.015

	coef	std err	t	P>\|t\|	[0.025	0.975]
C(month)[1]	2959.3333	103.831	28.502	0.000	2751.641	3167.025
C(month)[2]	2894.6667	103.831	27.879	0.000	2686.975	3102.359
C(month)[3]	2743.0000	103.831	26.418	0.000	2535.308	2950.692
C(month)[4]	2269.6667	103.831	21.859	0.000	2061.975	2477.359
C(month)[5]	1805.1667	103.831	17.386	0.000	1597.475	2012.859
C(month)[6]	1608.6667	103.831	15.493	0.000	1400.975	1816.359
C(month)[7]	1550.8333	103.831	14.936	0.000	1343.141	1758.525
C(month)[8]	1408.3333	103.831	13.564	0.000	1200.641	1616.025
C(month)[9]	1397.3333	103.831	13.458	0.000	1189.641	1605.025
C(month)[10]	1690.0000	103.831	16.277	0.000	1482.308	1897.692
C(month)[11]	1874.0000	103.831	18.049	0.000	1666.308	2081.692
C(month)[12]	2478.5000	103.831	23.871	0.000	2270.808	2686.192

	Stationarity_kpss
Test Statistics	0.54
p-value	0.03
Used Lag	12.00
Critical Value(10%)	0.35

	Stationarity_adf
Test Statistics	-4.30
p-value	0.00
Used Lag	11.00
Used Observations	54.00
Critical Value(1%)	-3.56
Maximum Information Criteria	786.67

	Stationarity_adf
Test Statistics	-2.14
p-value	0.23
Used Lag	11.00
Used Observations	48.00
Critical Value(1%)	-3.57
Maximum Information Criteria	703.72

	Stationarity_kpss
Test Statistics	0.09
p-value	0.10
Used Lag	11.00
Critical Value(10%)	0.35

	Stationarity_adf
Test Statistics	0.34
p-value	0.98
Used Lag	0.00
Used Observations	999.00
Critical Value(1%)	-3.44
Maximum Information Criteria	2,773.39

	Stationarity_kpss
Test Statistics	3.75
p-value	0.01
Used Lag	22.00
Critical Value(10%)	0.35

	Stationarity_adf
Test Statistics	-31.08
p-value	0.00
Used Lag	0.00
Used Observations	998.00
Critical Value(1%)	-3.44
Maximum Information Criteria	2,770.18

	Stationarity_kpss
Test Statistics	0.22
p-value	0.10
Used Lag	22.00
Critical Value(10%)	0.35

	Stationarity_adf
Test Statistics	0.82
p-value	0.99
Used Lag	13.00
Used Observations	130.00
Critical Value(1%)	-3.48
Maximum Information Criteria	996.69

	Stationarity_kpss
Test Statistics	1.05
p-value	0.01
Used Lag	14.00
Critical Value(10%)	0.35

Data Science Study

기계학습(Machine Learning) 알고리즘¶

정규화 방법론(Regularized Method, Penalized Method, Contrained Least Squares)¶

정규화 회귀분석 알고리즘¶

하이퍼파라미터 특성 및 요약¶

실습¶

회귀분석 알고리즘 정리¶

Bagging and Boosting 모델¶

편향-분산 상충관계(Bias-variance Trade-off)¶

Bagging vs Boosting¶

Bagging 알고리즘¶

Boosting 알고리즘¶

비교¶

시계열 알고리즘¶

비정상성(Non-stationary)의 정상성(Stationary) 변환¶

정상성 테스트 방향¶

실습: 대기중 CO2농도 추세 제거¶

실습: 호흡기질환 사망자수 계절성 제거¶

실습: 랜덤워크의 정상성 변환¶

실습: 항공사 승객수요 스케일 변환(Log / Box-Cox)¶

실습: 항공사 승객수요 정상성 변환¶

일반 선형확률과정(General Linear Process)¶

WN(White Noise)¶

MA(Moving Average)¶

AR(Auto-Regressive)¶

Relation of MA and AR¶

ARMA(Auto-Regressive Moving Average)¶

모형 차수결정 정리¶

실습: 항체형성 호르몬수지 ARMA 모델링¶

실습: 호흡기질환 사망자수 ARMA 모델링¶

ARMAX(ARMA with eXogenous)¶

실습: 통화량을 고려한 소비자지출 ARMAX 모델링¶

적분 선형확률과정(Integrated Linear Process)¶

ARIMA(Auto-Regressive Integrated Moving Average)¶

ARIMA 모형 차수결정 정리¶

SARIMA(Seasonal ARIMA)¶

Simple SARIMA: 계절성 시차에서만 ACF가 유의하지 않음¶

Multiplicated SARIMA: 계절성 시차와 그 주변의 시차에서도 ACF가 유의하지 않음¶

실습: 호흡기질환 사망자수 SARIMA 모델링¶

실습: 항공사 승객수요 SARIMA 모델링¶

선형확률과정의 분석싸이클¶

분석싸이클 정리(Non-seasonal)¶

분석싸이클 자동화(Non-seasonal)¶

실습: 항공사 승객수요 Auro-ARIMA 모델링¶

	Stationarity_adf
Test Statistics	-1.72
p-value	0.42
Used Lag	13.00
Used Observations	130.00
Critical Value(1%)	-3.48
Maximum Information Criteria	-445.40

	Stationarity_adf
Test Statistics	-2.72
p-value	0.07
Used Lag	14.00
Used Observations	128.00
Critical Value(1%)	-3.48
Maximum Information Criteria	-440.36

	Stationarity_adf
Test Statistics	-4.44
p-value	0.00
Used Lag	12.00
Used Observations	118.00
Critical Value(1%)	-3.49
Maximum Information Criteria	-415.56

Model:	ARMA	BIC:	2775.2536
Dependent Variable:	y	Log-Likelihood:	-1377.3
Date:	2020-07-31 22:45	Scale:	1.0000
No. Observations:	1000	Method:	css-mle
Df Model:	2	Sample:	0
Df Residuals:	998		0
Converged:	1.0000	S.D. of innovations:	0.959
No. Iterations:	4.0000	HQIC:	2766.126
AIC:	2760.5304

	Coef.	Std.Err.	t	P>\|t\|	[0.025	0.975]
const	0.0406	0.1197	0.3389	0.7347	-0.1940	0.2752
ar.L1.y	0.7475	0.0210	35.6193	0.0000	0.7063	0.7886

	Real	Imaginary	Modulus	Frequency
AR.1	1.4111	-1.3203	1.9324	-0.1197
AR.2	1.4111	1.3203	1.9324	0.1197

-	자기회귀: \(AR(p)\)	이동평균: \(MA(q)\)	자기회귀이동평균: \(ARMA(p,q)\)
\(ACF\)	지수적 감소, 진동하는 사인 형태	\(q+1\) 차항부터 절단모양(0수렴)	\(q+1\) 차항부터 지수적 감소 혹은 진동하는 사인형태
\(PACF\)	\(p+1\) 차항부터 절단모양(0수렴)	지수적 감소, 진동하는 사인 형태	\(p+1\) 차항부터 지수적 감소 혹은 진동하는 사인형태

	coef	std err	z	P>\|z\|	[0.025	0.975]
const	2.4050	0.098	24.576	0.000	2.213	2.597
ma.L1.value	0.4810	0.094	5.093	0.000	0.296	0.666

	p	q	LLF	AIC	BIC
0	1	0	24.89	-43.79	-36.96
1	1	1	31.98	-55.97	-46.86
2	2	0	35.74	-63.48	-54.37
3	2	1	44.51	-79.03	-67.64
4	3	0	38.56	-67.12	-55.74
5	3	1	45.28	-78.56	-64.90

Dep. Variable:	consump	R-squared:	0.995
Model:	OLS	Adj. R-squared:	0.995
Method:	Least Squares	F-statistic:	1.721e+04
Date:	Fri, 31 Jul 2020	Prob (F-statistic):	7.72e-101
Time:	22:46:10	Log-Likelihood:	-434.48
No. Observations:	88	AIC:	873.0
Df Residuals:	86	BIC:	877.9
Df Model:	1
Covariance Type:	nonrobust