일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- spark
- 터키 여행
- 데이터분석
- sparkml
- 스택/큐
- pyspark
- ADP실기
- SparkSQL
- 텍스트마이닝
- 시계열분석
- 회귀분석
- 카파도키아
- Deep Learning
- Machine Learning
- python
- postgresql
- text mining
- 기초통계학
- 튀르키예 여행
- 튀르키예
- 통계분석
- 인과추론
- mysql
- 머신러닝
- 파이썬
- 프로그래머스
- hackerrank
- nlp
- sql
- 딥러닝
- Today
- Total
목록Data Analysis & ML/시계열분석 (30)
YSY의 데이터분석 블로그
인과관계와 상관관계 Spurious Regression X와 Y가 관련(인과관계)이 없거나 논리적인 스토리가 없음에도 단순하게 상관성이 높다라고 잘못 결론을 내리는 것 Post Hoc Fallacy X 다음에 Y가 일어났으므로 X가 Y의 원인이라고 판단하는, 즉 시간순서가 인과관계를 담보할 것이라는 오류 징크스 : 머리를 염색했더니 시험점수가 100점이 나오더라고 믿는 경우 오버피팅(Overfitting) : 인과관계가 있는 데이터에서 샘플(Train) 데이터에 치우쳐버린 모델 Post Hoc Fallacy : 아무런 인과관계가 없는(상관관계는 높더라도) 데이터로 만든 모델 Granger Causality 어떤 현상의 예측에 있어 다른 정보를 이용하는 것이 얼마나 유의미한지 나타내는 척도 추론불가한 문제..
https://ysyblog.tistory.com/298 [시계열분석] 다변량 선형 확률과정 - VAR & IRP (백터자기회귀과정, 임펄스응답함수) 다변량 선형 확률과정 필요성 단변량 시계열(Simple/Multiple포함)은 종속변수(Y_t)가 독립변수들에만! 영향을 받는다는 큰 가정 존재 현실적으론 종속변수와 독립변수는 상호 영향을 주고받음 예시: ysyblog.tistory.com 위 포스팅에 이어 진행됩니다. 데이터 로딩 및 시각화 데이터 설명 : https://www.statsmodels.org/0.6.1/datasets/generated/macrodata.html import pandas as pd import numpy as np import matplotlib.pyplot as plt i..
다변량 선형 확률과정 필요성 단변량 시계열(Simple/Multiple포함)은 종속변수(Y_t)가 독립변수들에만! 영향을 받는다는 큰 가정 존재 현실적으론 종속변수와 독립변수는 상호 영향을 주고받음 예시: 개인 소득과 지출 중 어떤게 Y로 적합한가?라는 질문은 왜 하지 않는가? => 2차원(소득과 지출 모두를 종속변수) 과거 1시점까지만을 고려하는 백터자기회귀 알고리즘 지금의 소득은 어제의 소득과 어제의 지출에도 영향을 받는다. 오늘의 지출은 어제의 소득과 어제의 지출에 모두 영향을 받는다. 벡터자기회귀 모형(Vector Autoregressive Model) 1) VAR 알고리즘 단변량 시계열과 같이 평균 벡터와 공분산 벡터가 시차에만 의존하고 각각의 절대위치에 독립적이인 정상성(Stationary) ..
아래 포스팅에서 이어 진행됩니다 https://ysyblog.tistory.com/287 [시계열 분석] Prophet Prophet 알고리즘 Paper: https://peerj.com/preprints/3190.pdf Quick Start: https://facebook.github.io/prophet/docs/quick_start.html 기본가정 자동화 된 기술은 상황에 맞게 튜닝하기 어렵고 경험적 지식을.. ysyblog.tistory.com Growth 파라미터 1. Saturating(데이터의 상한과 하한 설정) 로지스틱 설정하여 비선형적 추정 Y 데이터의 상한과 하한을 반드시 설정해 주어야함. (cap, floor) 파라미터에서 growth = "saturating" 으로 설정 Test 데..
Prophet 알고리즘 Paper: https://peerj.com/preprints/3190.pdf Quick Start: https://facebook.github.io/prophet/docs/quick_start.html 기본가정 자동화 된 기술은 상황에 맞게 튜닝하기 어렵고 경험적 지식을 반영하기 어려움 분석가들은 도메인 지식만 풍부한 편이며 분석을 쉽게 다루지 못함 비전문가가 경험적 특성을 반영할 수 있도록 필요한 부분을 자동화 Prophet 모델의 주요 구성요소 : Trend, Seasonality, Holiday 공식 : y(t)=g(t)+s(t)+h(t)+ϵi g(t) : 반복적인 요소가 없는 트랜드 s(t) : 반폭적인 요소를 가지고 있는 변화(계절성) h(t) : 불규칙적으로 영향을 미..
항공사 승객수요 데이터 모델링 # 라이브러리 호출 import pandas as pd import numpy as np import matplotlib.pyplot as plt import statsmodels.api as sm %reload_ext autoreload %autoreload 2 from module import stationarity_adf_test, stationarity_kpss_test # 데이터 준비 data = sm.datasets.get_rdataset("AirPassengers") raw = data.data.copy() # 데이터 전처리 ## 시간 인덱싱 if 'time' in raw.columns: raw.index = pd.date_range(start='1/1/1949..
분석싸이클 자동화(Non-seasonal) "Hyndman-Khandakar algorithm for automatic ARIMA modelling" 차수가 높지않은 SARIMA 알고리즘을 자동화 한 것으로 Hyndman-Khandakar 알고리즘(2008)을 기반으로 함 정상성변환(Unit Root Calculation), 검증지표 최적화(AIC) 및 MLE 방법을 사용한 모수추정을 모두 포함 자동화 과정: 일반화 분석싸이클의 2~4단계만 자동화 1. KPSS 검정통계량(정상성 테스트)을 사용한 독립변수(Y_t)의 적분차수/차분차수 결정(0 ≤ d ≤ 2) 2. 차분된 독립변수 (1 - L)^d Y_t에 AIC를 줄여가며 초기모형 후보들 적합을 통한 Base모형의 차수 p와 q를 선택 만약 d ≤ 1,..
분석싸이클 정리(Non-seasonal) 1. 분석싸이클 제시: 1) 모형의 모수추정(Model Identification): - 시계열 데이터의 정상성을 확인하고 계절변동이 있는지도 확인 - ACF/PACF 를 사용해서 자기회귀이동평균 모형 p,q 차수를 결정 2) 모델링 및 검증(Parameter Estimation): - 회귀분석과 기계학습 등의 검증지표를 마찬가지로 사용 - 모형 추정은 최소제곱방법과 유사하지만 가우스-뉴튼 아이디어에 기초한 수치해석방법을 적용 3) 잔차진단(Model Diagnostics): - 자기회귀이동평균 모형을 적용시키고 남은 잔차의 정상성을 확인하는데 중점 - 잔차가 서로 독립이고 시간에 따라 평균과 분산이 일정한지 검증 - 시계열 데이터의 자기상관을 검정하기 위해 다양..