Data Analysis & ML/회귀분석

[회귀분석] 로지스틱 회귀분석(2) - 로지스틱 회귀식과 회귀계수 추정(최대 우도 추정법(MLE))

YSY^ 2023. 1. 24. 22:05

로짓을 활용하여 로지스틱 회귀식 도출

성공확률에 대한 로그식을 선형회귀식으로 산출

설명변수들이 주어졌을때 성공범주에 속할 확률을 구하기

1/ 양쪽에 지수함수를 씌움

2/ cross로 곱한다음 정리

→ 성공확률의 식

 

회귀계수의 추정

베르누이 분포

로지스틱 회귀는 베르누이 시행(Bernoulli trial)을 전제로 하는 모델입니다. 베르누이 시행이란 어떤 실험이 두 가지 결과만을 가지는 실험을 가리킵니다. 베르누이 시행의 결과에 따라 0(실패) 또는 1(성공)의 값을 대응시키는 확률변수(random variable)를 베르누이 확률변수라 합니다. 이 확률변수의 확률분포를 베르누이 분포라고 합니다.

 

 

 

 

  • Likelihood는 각각의 객체들에 대해 정답 클래스로 분류될 확률 (모델 A의 glass1에서 likelihood는 0.908)
    • 가능성에 scoring을 매겨놓은것, 이 score가 높을 수록 현상이 나타날 가능성이 높음
  • 두 모델중 더 적합한 모델은 모델 A, 그 이유는 모델 A가 B에 비해 정답에 더 높은 확률을 부여하고 있기 때문
  • 모든 객체들의 확률이 독립적으로 산출되었다면 데이터셋의 우도는 개별적인 객체들의 우도를 곱해서 산출가능
  • 샘플이 많을 수록 우도값은 0에 가까워지기에, 이런 문제를 해결하기 위해 로그 우도 값을 사용
    • 우도가 크면 로그우도값은 당연히 큼
    • 우도값은 최대 1이기에, 로그우도는 음수값을 가짐
    • 우도를 최대화한다 → 로그 우도를 크게 만든다 → 음의 로그우도를 작게만든다
    • → 값이 큰 모형이 데이터를 잘 설명하는 모형

 

CF) 확률(Probability)과 우도(Likelihood)

확률(P)는 고정된 확률분포가 주어졌을데 어떤 관측값이 나타나는지의 확률을 의미 (확률분포가 고정)

  • 확률분포를 고정한 뒤, 관측치나 구간이 도한될 수치를 표현한다.
    • EX) 평균이 10이고 표준편차가 1일때 15가 나올 확률은?
  • 이산형 확률 변수는 각 관측치에 대한 확률값이 있기에 특정관측치들의 확률값을 비교가능하다.
  • 다만 연속형 확률 변수는 확률함수에서 일정구간의 넓이를 구하는 형태로 확률값을 구하는데, 문제는 특정 관측치에 대한 확률값을 비교하기가 어렵다. 따라서 우도를 활용하여 이를 해결한다.

우도(L)는 고정된 관측값이 어떤 확률분포에서 얼마의 확률로 나타나는지에 대한 확률이다 (데이터가 고정)

  • 우도는 원인이 데이터이고 결과가 모델, 추정치일 때 사용한다.
    •  EX) 동전을 10번 던졌는데 모두 앞면이 나올 확률
  • 우도의 의의는 모델과 추정치의 우도가 높으면 좋다는 것이다.

 

최대 우도 추정법 (MLE)

  • 데이터의 우도를 최대로 하는 coff를 산출
  • 정답이 0일때는 1에서 정답이 1일 확률을 뺌

로지스틱 회귀분석은 0와 1값만을 가지기에 위 두개 식을 합쳐서 아래처럼 쓸 수 있음 (로지스틱회귀의 우도함수)

y가 0일 경우 뒤의 값만 남아있고, y가 1일 경우 앞의 값만 남게되기 때문

 

전체 데이터셋의 우도 계산

  • 개별 값들을 독립으로 가정했기에 곱하면 데이터셋의 우도를 계산가능
  • 총 N개의 관측치에 대한 우도를 전부 곱함

  • 위식을 로그화

선형회귀분석의 베타는 연산을 통해 찾을 수 있는 해이지만 로지스틱 회귀분석은 그렇지 않음

베타에 대해 비선형식이기에 명시적인 해(explicit soulution)가 존재하지 않음

따라서 Gradient Descent같은 방법등의 적절한 최적화 알고리즘을 통해 trial & error로 수렴해 가는 과정을 통해 최적의 해를 찾아가야함

 

경사하강법(Gradient Descent)

함수 값이 낮아지는 방향으로 독립 변수 값을 변형시켜가면서 최종적으로는 최소 함수 값을 갖도록 하는 독립 변수 값을 찾는 방법

  • 즉 gradient가 0에 가까운 지점을 찾는 방법
  • 0이 아니면 추가 학습 진행

gradient가 0 이 아닌 경우 최적의 해를 찾기 위한 방법은 gradient의 정방향이 아닌 역방향으로 가야함(gradient가 음수이면 양수의 방향으로 값을 증가)

얼마나 가야하나(step size) → 적당히.. 가야함

 

Threshold (Binary 판정 기준)

  • 실생활에서는 설명변수의 변화량이 확률값에 완벽하게 선형적으로 증가하는 것이 아닌, 특정구간에서만 선형을 갖는 경우가 많음, 즉, 구간을 벗어나면 설명변수의 변화량이 확률값의 변화에 영향을 거의 끼치지 않는 경우가 많음
  • 로지스틱함수의 output은 확률임 → 0,1을 분류하는 threshold를 설정하여야함
  • 보통 0.5가 threshold이지만 분석 주제에 따라 threshold가 다름
  • 예를들어 제조업에서는 불량 확률이 굉장히 낮은데, threshold도 이에 맞춰서 불량을 판정하는 기준을 높여야함
  • 위 예시 처럼 관심이 있는 범주에 속할 객체들이 관심에 없는 범주에 속할 객체들보다 적은 case가 일반적이기에 이에 맞게 threshold를 조정하여야함

 

해당 포스팅은 강필성 교수님의 비즈니스 애널리틱스 강의를 참고하여 작성하였습니다

https://youtu.be/UIdvUPLQIIY

728x90
반응형