반응형

Data Analysis & ML 109

[시계열분석] 잔차진단(1) - 백색잡음, 자기상관함수, 편자기상관함수

예측 분석 이후 예측이 잘 되었는지 그리고 데이터의 시간패턴이 잘 추출 되었는지 평가하는 것이 중요 검증지표는 예측값과 실제값이 얼마나 비슷한지를 측정하는 것이며, 모형이 시간특성을 잘 잡아내는지를 측정하지는 않음 회귀분석 평가지표는 아래링크 참조 : ysyblog.tistory.com/81 [Machine Learning][머신러닝] 회귀모델개요와 평가지표 회귀(Regression) 지도 학습(Supervised Learning)으로 예측할 Target이 연속형(continuous) 데이터(float)인 경우 회귀의 주요 평가 지표 예측값과 실제 값간의 차이를 구한다 MSE (Mean Squared Error) 실제 값.. ysyblog.tistory.com 시간특성 패턴이 잘 추출되었는지 확인하기 위..

[시계열분석] 시계열 변수 추출 실습(Python)(4) - 시계열 데이터 준비(train/test set 분리) (bike-sharing-demand dataset)

[시계열분석] 시계열 변수(빈도/추세/계절성/주기/시계열분해/더미변수/지연값) :ysyblog.tistory.com/179 [시계열분석] 시계열 변수 추출 실습(Python)(1) - 시계열 분해 (bike-sharing-demand dataset) :ysyblog.tistory.com/209 [시계열분석] 시계열 변수 추출 실습(Python)(2) - 이동평균/지연값/증감폭/그룹화 (bike-sharing-demand dataset) : ysyblog.tistory.com/210 [시계열분석] 시계열 변수 추출 실습(Python)(3) - 종속변수들과 독립변수들과의 관계를 파악하기 위한 시각화 (bike-sharing-demand dataset) : ysyblog.tistory.com/211 해당 포스..

[시계열분석] 시계열 변수 추출 실습(Python)(3) - 종속변수들과 독립변수들과의 관계를 파악하기 위한 시각화 (bike-sharing-demand dataset)

[시계열분석] 시계열 변수(빈도/추세/계절성/주기/시계열분해/더미변수/지연값) :ysyblog.tistory.com/179 [시계열분석] 시계열 변수 추출 실습(Python)(1) - 시계열 분해 (bike-sharing-demand dataset) :ysyblog.tistory.com/209 [시계열분석] 시계열 변수 추출 실습(Python)(2) - 이동평균/지연값/증감폭/그룹화 (bike-sharing-demand dataset) : ysyblog.tistory.com/210 해당 포스팅은 위 포스팅들에 이어 진행됩니다. 각 변수들의 분포 파악 # histogram plot raw_fe.hist(bins=20, grid=True, figsize=(16,12)) plt.show() target 변수 ..

[시계열분석] 시계열 변수 추출 실습(Python)(2) - 이동평균/지연값/증감폭/그룹화 (bike-sharing-demand dataset)

[시계열분석] 시계열 변수(빈도/추세/계절성/주기/시계열분해/더미변수/지연값) : ysyblog.tistory.com/179 [시계열분석] 시계열 변수 추출 실습(Python)(1) - 시계열 분해 (bike-sharing-demand dataset) : ysyblog.tistory.com/209 해당 포스팅은 위 포스팅들에 이어 진행됩니다. 이동평균(moving average) 계산 # comparison of several moving average values pd.concat([raw_all[['count']],#시간정보(파랑) raw_all[['count']].rolling(24).mean(), #데일리 패턴을 보겠다.(주황색) raw_all[['count']].rolling(24*7).mean..

[시계열분석] 시계열 변수 추출 실습(Python)(1) - 시계열 분해 (bike-sharing-demand dataset)

ysyblog.tistory.com/179?category=1186605 [시계열분석] 시계열 변수(빈도/추세/계절성/주기/시계열분해/더미변수/지연값)시계열분석은 어떤문제를 다루나 - regression, regulariRegularization Algorithms, clustering에서 주로 쓰며 ,Regression이 많이 쓰인다. 시계열 분석과 기계학습의 차이 확률 과정(Stochastic Process): 상관..ysyblog.tistory.com해당 포스팅은 위 포스팅에 이어 진행됩니다. Import Package and Dataset# Ignore the warningsimport warnings# warnings.filterwarnings('always') #항상 warning가 뜨게함wa..

[시계열분석] 시계열 변수(빈도/추세/계절성/주기/시계열분해/더미변수/지연값)

시계열분석은 어떤문제를 다루나 - regression, regulariRegularization Algorithms, clustering에서 주로 쓰며 ,Regression이 많이 쓰인다. 시계열 분석과 기계학습의 차이 확률 과정(Stochastic Process): 상관 관계를 가지는 무한개의 변수의 순서열 시계열 데이터(Time Series Data): 일정한 시간 간격으로 기록된 확률과정의 샘플 독립변수(𝑥𝑡xt)와 알고자 하는 종속변수(𝑦𝑡yt)가 시간단위(𝑡t)를 포함 모델의 출력(Output)은 𝑦y의 시간 𝑡t에서의 예측값 기계학습과 시계열예측 간 큰 차이가 존재하기에, 시계열 변수생성은 약간의 조정들을 요구함 시계열 변수 신규 변수를 생성하는 것은 분석에서 가장 중요하고 시간이 많이 걸리는..

[회귀분석] 로지스틱 회귀분석(3) - 로지스틱 회귀분석 해석

이번 포스팅에서는 Statsmodel을 활용한 로지스틱 회귀분석을 해석하는 포스팅입니다. 로지스틱 회귀분석 해석 데이터는 타이타닉 데이터를 사용합니다. import seaborn as sns import statsmodels.api as sm import pandas as pd import numpy as np titanic = sns.load_dataset("titanic") from sklearn.preprocessing import LabelEncoder # sex 레이블 인코딩 encoder = LabelEncoder() encoder.fit(titanic['sex']) sex = encoder.transform(titanic['sex']) #male이 1 femail이 0 titanic['sex..

[회귀분석] 단순선형회귀분석(Linear Regression)(9) - 이분산성

1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 :ysyblog.tistory.com/157 2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 :ysyblog.tistory.com/155 3. [회귀분석] 단순선형회귀분석(Linear Regression)(3) - 비용함수의 최소제곱추정량 :ysyblog.tistory.com/156 4. [회귀분석] 단순선형회귀분석(Linear Regression)(4) - 최소제곱추정량(LSE)의 통계적 특성 :ysyblog.tistory.com/159 5. [회귀분석] 단순선형회귀분석(Linear Regression)(5) - 표준오차 :ysyblog.tistory...

[회귀분석] 단순선형회귀분석(Linear Regression)(8) - 더미변수(Dummy Variable)

더미변수(Dummy Variable)값이 오직 0과 1로 이루어진 변수값 0과 1에는 수리적의미는 없음기본적으로는 이산형/범주형 변수인데 이를 연속형 변수처럼 사용더미변수를 사용하는 이유는 범주형 변수의 인자들에 차례대로 숫자를 붙이면 연속형 변수가 되기 때문에 회귀분석에서 사용할 수 없음 더미 변수의 개수더미변수의 개수는 범주의 개수 -1 이다.만약 범주의 개수대로 더미변수를 만들면 회귀분석에서 더미트랩에 걸려서 회귀분석에 되지 않음제거된 범주는 비교의 기준(reference group)가 된다. 더미 변수의 해석해당 범주와 기준그룹간에 유의한 차이가 있다/없다로 해석기준그룹이 아닌 다른 범주와는 비교 불가능함. 더미 데이터를 만드는 Python 코드는 아래 포스팅 참고 바랍니다https://ysybl..

[회귀분석] 단순선형회귀분석(Linear Regression)(7) - R-squared (R^2)(결정계수) (SST/SSR/SSE/Adjusted R-squared)

R-squared (R^2)(결정계수)회귀분석을 할 때 R-*squared값 *이라는 것을 많이 들어봤을 겁니다. 이 값이 굉장히 중요하다고 이야기를 하는데 이게 뭔지 제대로 알고 쓰는 경우는 별로 없습니다. 따라서 이번포스팅에서는 R-squared값에 대해 알아 볼 것입니다.분산회귀분석에서는 종속변수와 독립변수의 인과관계를 논리적으로 전제하고 독립변수로 종속변수를 설명하는 것이다.그런데 회귀분석 뿐만아니라 모든 통계는 결국 분산을 얼마나 잘 설명하는지가 목적이다.즉, 회귀분석이란 종속변수의 분산을 독립변수로 설명하는 과정이다.따라서 회귀분석은 이론/논리를 통해서 종속변수를 설명할 수 있는 모델을 만들어 종속변수의 분산을 모델(독립변수(들))로 설명한다.이때 모델(독립변수(들))가 문제가 없다면 종속변수..

반응형