Data Analysis & ML/회귀분석

[회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정

YSY^ 2021. 1. 28. 18:48

회귀분석

회귀분석이란 독립변수(=설명변수)라 불리우는 하나(또는 둘 이상)의 변수에 기초하여 종속변수(=피설명 변수)라 불리우는 다른 한 변수의 값을 설명하고 예측하는 추측통계이다.

상관분석 : 두 변수 모두 확률변수로 가정, 두 변수간의 선형성 전도를 추정하는 것이 목적
회귀분석 : 독립변수는 확정변수로 가정하고 종속변수는 확률변수로 가정, 독립변수의 주어진 값으로 종속변수의 평균값을 추정, 예측하는 것이 목적

단순선형회귀분석

만약 X값이 [1,2,3,4,5] 이고 Y가 [1,3,5,7,9] 이라고 가정합니다. 예를들어 X가 2일 때 Y는 3인 것입니다. 그렇다면 X가 6일때 Y는 얼마일까요? 바로 아시겠지만 Y는 11입니다.

이를 함수로 만든다면 F(X) = 2X -1 인 것입니다.위의 예제는 간단해서 직관적으로 함수를 만들 수 있지만 X값이 수도없이 많아진다면 사람의 힘으로 구하는 것이 힘들어집니다. 따라서 컴퓨터가 이를 계산하게 되는데 이것이 바로 선형회귀분석(Linear Regression)입니다. 주어진 X값과 Y값을 학습해서 규칙을 알아낸다면 새로운 X가 들어왔을때 Y를 예측할 수 있을것입니다.

단순선형회귀모형의 가정

[회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 0 — 단순회귀모형의 식

기본가정 : β0 과 β1은 각각 미지의 절편과 기울기 모 수이며 회귀변수 x는 수학변수(비확률변수)로 가정한다.

오차항 εi의 가정은 다음과 같다.

1. εi의 기대치는 0이다. => E(εi) = 0

2. εi의 분산이 일정하다 => Var(εi) = σ^2

3. i ≠ j일때 εi와 εj는 서로 상관이 없다. => Cov(εi,εj) = 0

4. X는 확률변수가 아니고 εi와 상관이 없다. =>Cov(X, εi) = 0

5. εi는 정규분포 N(0, σ^2)를 따른다.

위 가정들을 활용하여 다음과 같은 가정을 할 수 있다.

1. 단순회귀분석은 선형성을 가진다. (y =α +βx)

Yi의 기대값 E(Yi)는 E(α + βx+εi)로 나타낼 수 있다.
x가 비확률변수(수학변수)이기 때문에 확률변수 입장에서는 α +βx는 상수다. 따라서 다음과 같이 나타낼 수 있다.

E(Yi) = E(α +βx+εi) = α +βx+ E(εi)

이때 εi의 기대치 E(εi)는 0이라고 가정했기 때문에 E(Yi) = α +**βx**라고 할 수 있다.

2. 독립변수 X에 대한 종속변수 Y의 분산이 i에 관계없이 어떤 일정한 양의 값 σ^2를 가진다.

Var(Yi)는 Var(α +βx+εi)인데 α +βx는 상수이기 때문에 Var(Yi) = Var(α +βx+εi) = Var(εi)이다.
위에서 Var(εi) =σ^2라고 가정했기 때문에 Var(Yi) = Var(α +βx+εi) =Var(εi)= σ^2이며 Var(Yi) = σ^2이다.

cf) Var(εi) = E(εi^2) - [E(εi)]^2인데 E(εi) = 0이니 Var(εi) = E(εi^2)이다.
Var(εi) = σ^2이기 때문에 E(εi^2)=σ^2이다. 즉, 오차항 εi제곱의 기대값은 σ^2이다.

3. εi와 εj는 독립이며, εi는 자기상관성이 없다.

상관관계의 공식은 다음과 같다.

[회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 1

Var(εi) =σ^2이기 때문에 εi의 표준편차 σx는 σ이고 εj의 표준편차 σy도 σ이다. 또한 εi와εj는 서로 상관이 없다고 가정했기 때문에 상관계수는 0이다.

[회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 2

σ은 0이 아니기 때문에 Cov(εi,εj) = 0이다. 공분산의 공식을 활용하여 다음과 같은 식을 끌어낼 수 있다.

[회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 3

이를 다시 정리하면 다음과 같이 나타낼 수 있다.

[회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 4

즉, εi와εj는 서로 독립인 것이다. 또한 E(εi)가 0이기 때문에 E(**εi * εj) = 0** 이라 할 수 있다.

4. X가 값이 고정되므로 Y는 ε에 의해 확률변수가 된다.

5. Y는 정규분포를 따른다.

εi는 정규분포 N(0, σ^2)를 따르기 때문이다.
E(Yi) =α +βx 이며 Var(Yi) =σ^2 이기 때문에 다음과 같이 정의할 수 있다.

Y~ N(α +βx, σ^2)

이번 포스팅에서는 단순선형회귀모형의 가정에 대해서 알아보았습니다. 다음 포스팅에서는 선형회귀를 추정할때 사용하는 비용함수(Cost Function)에 대해 알아보겠습니다.

728x90

저작자표시 비영리

'Data Analysis & ML > 회귀분석' 카테고리의 다른 글

[회귀분석] 단순선형회귀분석(Linear Regression)(6) - 회귀분석과 T-test (2)	2021.02.13
[회귀분석] 단순선형회귀분석(Linear Regression)(5) - 표준오차 (0)	2021.02.13
[회귀분석] 단순선형회귀분석(Linear Regression)(4) - 최소제곱추정량(LSE)의 통계적 특성(불편추정량, 효율성, 선형성 가우스-마르코프 정리) (0)	2021.01.29
[회귀분석] 단순선형회귀분석(Linear Regression)(3) - 비용함수와 최소제곱법(최소자승법) (크래머공식 / 분산 / 공분산) (0)	2021.01.28
[회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 (비용함수(Cost Function) / 최소제곱법 / 경사하강법 / 학습률/ Epoch) (0)	2021.01.27

현재글[회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정

YSY의 데이터분석 블로그 데이터 분석 블로그 - 데이터분석 방법론 / 인과추론 / 머신러닝 / Python / SQL / Hadoop&Spark / 통계

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정

회귀분석

단순선형회귀분석

단순선형회귀모형의 가정

1. 단순회귀분석은 선형성을 가진다. (y =α +βx)

2. 독립변수 X에 대한 종속변수 Y의 분산이 i에 관계없이 어떤 일정한 양의 값 σ^2를 가진다.

3. εi와 εj는 독립이며, εi는 자기상관성이 없다.

4. X가 값이 고정되므로 Y는 ε에 의해 확률변수가 된다.

5. Y는 정규분포를 따른다.

'Data Analysis & ML > 회귀분석' 카테고리의 다른 글

'Data Analysis & ML/회귀분석'의 다른글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정

회귀분석

단순선형회귀분석

단순선형회귀모형의 가정

1. 단순회귀분석은 선형성을 가진다. (y =α +βx)

2. 독립변수 X에 대한 종속변수 Y의 분산이 i에 관계없이 어떤 일정한 양의 값 σ^2를 가진다.

3. εi와 εj는 독립이며, εi는 자기상관성이 없다.

4. X가 값이 고정되므로 Y는 ε에 의해 확률변수가 된다.

5. Y는 정규분포를 따른다.

'Data Analysis & ML > 회귀분석' 카테고리의 다른 글

'Data Analysis & ML/회귀분석'의 다른글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역