반응형

Data Analysis & ML/회귀분석 21

[회귀분석] 다중선형회귀분석(1) - 다중선형회귀모형의 가정

다중회귀모형이란설명변수(독립변수)가 2 개 이상인 회귀모형을 분석대상으로하는 것.다중회귀모형은 분석내용을 향상시킬 수 있다는 장점이 있음추가적인 독립변수를 도입함으로써 오차항의 값을 줄일 수 있으며단순회귀분석의 단점을 극복종속변수를 설명하는 독립변수가 두개일 때 단순회귀모형을 적용하면, 모형설정이 부정확할 뿐 아니라 종속변수에 대한 중요한 설명변수(독립변수)를 누락함으로써 계수 추정량에 대해 편의(bias)가 생길 수 있다. 따라서 다중회귀분석을 통해 편의현상(bias)을 제거할 수 있다. 다중회귀모형의 식다중회귀모형의 식은 다음과 같다.여러개의 다중회귀모형 식을 아래와 같이 행렬로도 나타낼 수 있다. 다중회귀모형의 가정1. 회귀모형은 모수에 대해 선형인 모형이다. => Yi = β0 + β1 X1i +..

[회귀분석] 로지스틱 회귀분석(3) - 로지스틱 회귀분석 해석

이번 포스팅에서는 Statsmodel을 활용한 로지스틱 회귀분석을 해석하는 포스팅입니다. 로지스틱 회귀분석 해석 데이터는 타이타닉 데이터를 사용합니다. import seaborn as sns import statsmodels.api as sm import pandas as pd import numpy as np titanic = sns.load_dataset("titanic") from sklearn.preprocessing import LabelEncoder # sex 레이블 인코딩 encoder = LabelEncoder() encoder.fit(titanic['sex']) sex = encoder.transform(titanic['sex']) #male이 1 femail이 0 titanic['sex..

[회귀분석] 단순선형회귀분석(Linear Regression)(9) - 이분산성

1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 :ysyblog.tistory.com/157 2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 :ysyblog.tistory.com/155 3. [회귀분석] 단순선형회귀분석(Linear Regression)(3) - 비용함수의 최소제곱추정량 :ysyblog.tistory.com/156 4. [회귀분석] 단순선형회귀분석(Linear Regression)(4) - 최소제곱추정량(LSE)의 통계적 특성 :ysyblog.tistory.com/159 5. [회귀분석] 단순선형회귀분석(Linear Regression)(5) - 표준오차 :ysyblog.tistory...

[회귀분석] 단순선형회귀분석(Linear Regression)(8) - 더미변수(Dummy Variable)

더미변수(Dummy Variable)값이 오직 0과 1로 이루어진 변수값 0과 1에는 수리적의미는 없음기본적으로는 이산형/범주형 변수인데 이를 연속형 변수처럼 사용더미변수를 사용하는 이유는 범주형 변수의 인자들에 차례대로 숫자를 붙이면 연속형 변수가 되기 때문에 회귀분석에서 사용할 수 없음 더미 변수의 개수더미변수의 개수는 범주의 개수 -1 이다.만약 범주의 개수대로 더미변수를 만들면 회귀분석에서 더미트랩에 걸려서 회귀분석에 되지 않음제거된 범주는 비교의 기준(reference group)가 된다. 더미 변수의 해석해당 범주와 기준그룹간에 유의한 차이가 있다/없다로 해석기준그룹이 아닌 다른 범주와는 비교 불가능함. 더미 데이터를 만드는 Python 코드는 아래 포스팅 참고 바랍니다https://ysybl..

[회귀분석] 단순선형회귀분석(Linear Regression)(7) - R-squared (R^2)(결정계수) (SST/SSR/SSE/Adjusted R-squared)

R-squared (R^2)(결정계수)회귀분석을 할 때 R-*squared값 *이라는 것을 많이 들어봤을 겁니다. 이 값이 굉장히 중요하다고 이야기를 하는데 이게 뭔지 제대로 알고 쓰는 경우는 별로 없습니다. 따라서 이번포스팅에서는 R-squared값에 대해 알아 볼 것입니다.분산회귀분석에서는 종속변수와 독립변수의 인과관계를 논리적으로 전제하고 독립변수로 종속변수를 설명하는 것이다.그런데 회귀분석 뿐만아니라 모든 통계는 결국 분산을 얼마나 잘 설명하는지가 목적이다.즉, 회귀분석이란 종속변수의 분산을 독립변수로 설명하는 과정이다.따라서 회귀분석은 이론/논리를 통해서 종속변수를 설명할 수 있는 모델을 만들어 종속변수의 분산을 모델(독립변수(들))로 설명한다.이때 모델(독립변수(들))가 문제가 없다면 종속변수..

[회귀분석] 단순선형회귀분석(Linear Regression)(6) - 회귀분석과 T-test

회귀분석과 T-test표준오차가 작으면 회귀계수가 우연일 확률이 낮으며, 표준오차가 크면 회귀계수가 우연일 확률이 큰것이다. 이 확률을 계산하는 방법바로 t-test이다.아래는 t-test를 설명한 포스팅이다.ysyblog.tistory.com/164 두개의 집단이 같은지 다른지 비교하기 위해 사용 -> 이를" data-og-host="ysyblog.tistory.com" data-og-source-url="https://ysyblog.tistory.com/164" data-og-url="https://ysyblog.tistory.com/164" data-og-image="https://scrap.kakaocdn.net/dn/scjVp/hyJeA46171/uNrfYk4kD794eXRue1HZWK/img...

[회귀분석] 단순선형회귀분석(Linear Regression)(5) - 표준오차

1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 : ysyblog.tistory.com/157 2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 : ysyblog.tistory.com/155 3. [회귀분석] 단순선형회귀분석(Linear Regression)(3) - 비용함수의 최소제곱추정량 : ysyblog.tistory.com/156 4. [회귀분석] 단순선형회귀분석(Linear Regression)(4) - 최소제곱추정량(LSE)의 통계적 특성 : ysyblog.tistory.com/159 해당 포스팅은 위 포스팅들에 이어서 진행됩니다. 위 두가지 그래프는 같은 회귀식을 가지고 있습니다. 하지만 점..

[회귀분석] 단순선형회귀분석(Linear Regression)(4) - 최소제곱추정량(LSE)의 통계적 특성(불편추정량, 효율성, 선형성 가우스-마르코프 정리)

1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 : ysyblog.tistory.com/157 2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 : ysyblog.tistory.com/155 3. [회귀분석] 단순선형회귀분석(Linear Regression)(3) - 비용함수의 최소제곱추정량 : ysyblog.tistory.com/156 해당 포스팅은 위 포스팅들에 이어서 진행됩니다. 최소제곱추정량(LSE)의 통계적 특성 최소제곱법에 의해 산출된 최소제곱추정량 W와 b는 확률변수인데 이 확률변수의 평균, 분산, 분포는 어떻게 되고, 추정값이 얼마나 잘 만들어지는지 알아볼 필요가 있다. 특히 최소제곱추정량..

[회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정

회귀분석 회귀분석이란 독립변수(=설명변수)라 불리우는 하나(또는 둘 이상)의 변수에 기초하여 종속변수(=피설명 변수)라 불리우는 다른 한 변수의 값을 설명하고 예측하는 추측통계이다. 상관분석 : 두 변수 모두 확률변수로 가정, 두 변수간의 선형성 전도를 추정하는 것이 목적 회귀분석 : 독립변수는 확정변수로 가정하고 종속변수는 확률변수로 가정, 독립변수의 주어진 값으로 종속변수의 평균값을 추정, 예측하는 것이 목적 단순선형회귀분석 만약 X값이 [1,2,3,4,5] 이고 Y가 [1,3,5,7,9] 이라고 가정합니다. 예를들어 X가 2일 때 Y는 3인 것입니다. 그렇다면 X가 6일때 Y는 얼마일까요? 바로 아시겠지만 Y는 11입니다. 이를 함수로 만든다면 F(X) = 2X -1 인 것입니다.위의 예제는 간단해..

[회귀분석] 단순선형회귀분석(Linear Regression)(3) - 비용함수와 최소제곱법(최소자승법) (크래머공식 / 분산 / 공분산)

비용함수와 최소제곱법(최소자승법)저번시간에는 선형회귀분석의 비용함수에 대해 알아보았습니다. 이제는 비용함수의 기울기가 최소(0)이 되도록 계산하겠습니다. 최소제곱법/최소자승법(OLS) 계산비용함수의 기울기가 0이 되도록 계산 (최소제곱법/최소자승법(OLS)) 기울기가 0인 것을 목표로 하기 때문에 w와 b의 기울기공식을 연립방정식으로 풀면 w와 b의 값을 알아낼 수 있습니다.위의 W와 b의 공식을 정리하면 다음과 같습니다.이제 위 두 식을 연립방정식으로 풀어보겠습니다. 하지만 식이 복잡하여 일반 연립방정식으로는 풀 수 없고 행렬을 이용해서 풀어주어야 합니다. 위 식을 행렬로 나타내 보겠습니다.위 행렬은 AB = C형식으로 되어있는데 여기서 B를 구하려면 양변에 A의 역행렬을 곱해주어야 합니다. 이를 할 ..

반응형