Statistics & Math/기초통계학

[기초통계학] 산포도와 상관계수, 그리고 상관관계

YSY^ 2024. 3. 20. 22:19

산포도 (Scatter plot)

  • 두 변수 사이의 관계를 살펴보기 위해 산포도를 이용한다.
  • 설명변수는 x로 표기하고 가로축에 표시
  • 피설명변수는 y로 표기하고 세로축에 표시

  • 설명변수와 피설명변수간 관계가 약한경우
    • 변수 사이의 관계가 약하면 한 변수 값으로 다른 변수 값을 예측하기 어려움
    • 위 산포도에서 중간고사에서 150점 받은 학생들의 기말고사 성적은 55점에서 175점  사이에 분포하므로 중간고사 점수로 기말고사 점수를 예측하기 어려움
  • 설명변수와 피설명변수간 관계가 강한경우
    • 변수 사이의 관계가 강하면 한 변수 값으로 다른 변수 값을 예측하는것이 가능해짐
    • 아래 산포도에서 중간고사에서 150점 받은 학생들의 기말고사 성적은 105점에서 175점 사이에 분포함 (위 케이스보다 예측 범위가 감소함)

 

상관계수

상관계수의 필요성

가로든 세로든 평균과 표준편차가 동일해도 두 변수의 관계는 상이

위의 두 산포도는 가로든 세로든 중심과 퍼진 정도가 동일하지만 (a)가 (b) 보다 더 강한 선형관계를 보임

두 변수간 선형관계의 방향과 강도가 얼마나 되는지 측정이 필요함

 

따라서 상관계수는 세가지 키워드로 의미가 정의됨

두 변수간 1.선형관계, 2.방향, 3.강도를 측정하는 것

 

공분산 (Covariance)

  1. 각 변수를 평균으로부터의 편차로 바꾼다.
  2. 두 편차를 서로 곱한 뒤 합친다.
  3. 각 편차를 제곱하여 합치고, 다시 제곱근을 취한다. 두 제곱근을 곱한다.
  4. 위 2)에서 얻은 값을 위 3)에서 얻은 값으로 나눈다.

공분산의 특징

  • X의 편차와 Y편차 곱의 대략적인 평균 (대략적이라는 의미는 n이 아닌 n-1(자유도)로 나눠줬기 때문)
    • 전체 자료들에 걸친 편차들의 곱
    • (X1 - X) (Y1-Y) : 첫번째 관측치에서본 X의 편차 / 첫번째 관측치에서 본 Y의 편차
    • (Xn - X) (Yn-Y) 을 모두 더하고 자유도로 나눠준 것이 공분산
  • 상관계수의 부호는 공분산의 부호의 방향과 같음
    • 공분산은 위치에 따라 선형 관계에는 변화가 없음
    • 평균을 중심으로 1과 3 사분면에 자료가 많고 길게 분포하면 '양수(+)' 값을 가짐
    • 반면 2와 4 사분면에 자료가 많고 길게 분포하면, '음수(-)' 값을 가짐
    • 또한 공분산은 평균에서 멀어질수록 선형 관계가 명확해짐.

 

상관계수 계산

공분산만이 아닌 상관계수를 따로 정의한 이유

-> 상관계수를 단위와 관계없이 독립적으로 정의하기 위함

  • 키 몸무게 등은 각각 단위가 다른데, 공분산을 각각의 표준편차의 곱으로 나눠주면 분자는 x단위, y단위의 곱을 단위로 가짐
  • 분모는 x의 표준편차가 x의 단위를 갖고, y의 표준편차가 y의 단위를 갖게 되니까 단위들이 다 서로 상쇄
  • 따라서 상관계수는 단위와 관계없이 정의되며, 여전히 상관계수의 방향, 부호는 공분산의 방향과 부호에 그대로 유
  • 공분산으로부터 상관계수로 바꿔주는 변환을 하는 것은 그 절댓값에 대해서 의미를 주기 위함.
    • 즉, 강도에 대해서 의미를 줄 수 있는 벤츠마크를 삼기 위함.

상관계수의 범위와 부호

  • 범위: -1 ≤ r ≤ 1
  • 완전상관(perfect correlation)  : 상관계수가 1 이거나 –1 인 경우
    • 모든 점들이 정확히 하나의 선 위에 위치
  • 양의 상관관계이면 점의 분포가 우상향
  • 음의 상관관계이면 점의 분포가 우하향
  • 두 변수의 표준편차가 모두 0이면 상관계수를 정의할 수 없음
  • 두 변수 중 어느 한 변수만의 표준편차가 0이면 상관계수는 0

상관계수의 특징

  • 상관계수는 단위를 갖지 않으며, 측정단위와 독립적으로 정의됨
    • 하나의 변수가 취하는 모든 값에 상수를 더하거나 빼는 변환을 해도 상관계수는 변하지 않음
    • 하나의 변수가 취하는 모든 값에 양의 상수를 곱하거나 양의 상수로 나누는 변환을 해도 상관계수는 변하지 않음
  • 상관계수는 방향성을 갖지 않기에, x와 y의 상관계수는 y와 x의 상관계수와 같음

상관계수의 해석

  • ‘상관계수=0.4’은 산포도 상에서 40%의 점들이 하나의 선 주위에 빽빽하게 밀집해 있다는 것을 의미하지 않음.
  • ‘상관계수=0.4’은 상관계수가 0.2일 때보다 선형관계의 강도가 강하기는 하지만, 두 배로 강하다는 것을 의미하지 않음
  • 또한 상관관계가 0이라느 것은 관계가 없다기보다는 선형관계가 없다는 뜻임
  • 산포도상에서 표준편차를 변화시킬 때의 시각적 효과
    • 아래 두 차트에서 상관계수는 0.7로 같음

상관관계가 유용하지 않는 경우

  1. 이탈값(outlier)가 존재하는 경우
  2. 두 변수간 관계가 비선형인 경우 -> 변수변환으로 상관관계를 볼 수 있음

변수 변환

  • 적절한 변수변환을 통하여 비선형 관계를 선형관계로 근사시킴
  • - 예) (x,y)간 존재하는 원래의 비선형 관계가 (x, ln(Y))간 선형관계로 바뀐 경우
  • 시간에 따라 곱으로 증가하는 경우 (매년 물가 상승 / 임금 상승 등)를 선형인 관계로 바꾸는 경우 로그변환을함.

 

해당포스팅은류근관 교수님의 <그림과 수치를 이용한 자료의 정리>강의를 참고하여 작성하였습니다

728x90
반응형