산포도와 상관계수(상관관계)
산포도 (Scatter plot)
- 두 변수 사이의 관계를 살펴보기 위해 산포도를 이용한다.
- 설명변수는 x로 표기하고 가로축에 표시
- 피설명변수는 y로 표기하고 세로축에 표시
- 설명변수와 피설명변수간 관계가 약한경우
- 변수 사이의 관계가 약하면 한 변수 값으로 다른 변수 값을 예측하기 어려움
- 위 산포도에서 중간고사에서 150점 받은 학생들의 기말고사 성적은 55점에서 175점 사이에 분포하므로 중간고사 점수로 기말고사 점수를 예측하기 어려움
- 설명변수와 피설명변수간 관계가 강한경우
- 변수 사이의 관계가 강하면 한 변수 값으로 다른 변수 값을 예측하는것이 가능해짐
- 아래 산포도에서 중간고사에서 150점 받은 학생들의 기말고사 성적은 105점에서 175점 사이에 분포함 (위 케이스보다 예측 범위가 감소함)
상관계수
상관계수의 필요성
가로든 세로든 평균과 표준편차가 동일해도 두 변수의 관계는 상이
위의 두 산포도는 가로든 세로든 중심과 퍼진 정도가 동일하지만 (a)가 (b) 보다 더 강한 선형관계를 보임
두 변수간 선형관계의 방향과 강도가 얼마나 되는지 측정이 필요함
따라서 상관계수는 세가지 키워드로 의미가 정의됨
두 변수간 1.선형관계, 2.방향, 3.강도를 측정하는 것
공분산 (Covariance)
- 각 변수를 평균으로부터의 편차로 바꾼다.
- 두 편차를 서로 곱한 뒤 합친다.
- 각 편차를 제곱하여 합치고, 다시 제곱근을 취한다. 두 제곱근을 곱한다.
- 위 2)에서 얻은 값을 위 3)에서 얻은 값으로 나눈다.
공분산의 특징
- X의 편차와 Y편차 곱의 대략적인 평균 (대략적이라는 의미는 n이 아닌 n-1(자유도)로 나눠줬기 때문)
- 전체 자료들에 걸친 편차들의 곱
- (X1 - X) (Y1-Y) : 첫번째 관측치에서본 X의 편차 / 첫번째 관측치에서 본 Y의 편차
- (Xn - X) (Yn-Y) 을 모두 더하고 자유도로 나눠준 것이 공분산
- 상관계수의 부호는 공분산의 부호의 방향과 같음
- 공분산은 위치에 따라 선형 관계에는 변화가 없음
- 평균을 중심으로 1과 3 사분면에 자료가 많고 길게 분포하면 '양수(+)' 값을 가짐
- 반면 2와 4 사분면에 자료가 많고 길게 분포하면, '음수(-)' 값을 가짐
- 또한 공분산은 평균에서 멀어질수록 선형 관계가 명확해짐.
상관계수 계산
공분산만이 아닌 상관계수를 따로 정의한 이유
-> 상관계수를 단위와 관계없이 독립적으로 정의하기 위함
- 키 몸무게 등은 각각 단위가 다른데, 공분산을 각각의 표준편차의 곱으로 나눠주면 분자는 x단위, y단위의 곱을 단위로 가짐
- 분모는 x의 표준편차가 x의 단위를 갖고, y의 표준편차가 y의 단위를 갖게 되니까 단위들이 다 서로 상쇄
- 따라서 상관계수는 단위와 관계없이 정의되며, 여전히 상관계수의 방향, 부호는 공분산의 방향과 부호에 그대로 유
- 공분산으로부터 상관계수로 바꿔주는 변환을 하는 것은 그 절댓값에 대해서 의미를 주기 위함.
- 즉, 강도에 대해서 의미를 줄 수 있는 벤츠마크를 삼기 위함.
상관계수의 범위와 부호
- 범위: -1 ≤ r ≤ 1
- 완전상관(perfect correlation) : 상관계수가 1 이거나 –1 인 경우
- 모든 점들이 정확히 하나의 선 위에 위치
- 양의 상관관계이면 점의 분포가 우상향
- 음의 상관관계이면 점의 분포가 우하향
- 두 변수의 표준편차가 모두 0이면 상관계수를 정의할 수 없음
- 두 변수 중 어느 한 변수만의 표준편차가 0이면 상관계수는 0
상관계수의 특징
- 상관계수는 단위를 갖지 않으며, 측정단위와 독립적으로 정의됨
- 하나의 변수가 취하는 모든 값에 상수를 더하거나 빼는 변환을 해도 상관계수는 변하지 않음
- 하나의 변수가 취하는 모든 값에 양의 상수를 곱하거나 양의 상수로 나누는 변환을 해도 상관계수는 변하지 않음
- 상관계수는 방향성을 갖지 않기에, x와 y의 상관계수는 y와 x의 상관계수와 같음
상관계수의 해석
- ‘상관계수=0.4’은 산포도 상에서 40%의 점들이 하나의 선 주위에 빽빽하게 밀집해 있다는 것을 의미하지 않음.
- ‘상관계수=0.4’은 상관계수가 0.2일 때보다 선형관계의 강도가 강하기는 하지만, 두 배로 강하다는 것을 의미하지 않음
- 또한 상관관계가 0이라느 것은 관계가 없다기보다는 선형관계가 없다는 뜻임
- 산포도상에서 표준편차를 변화시킬 때의 시각적 효과
- 아래 두 차트에서 상관계수는 0.7로 같음
상관관계가 유용하지 않는 경우
- 이탈값(outlier)가 존재하는 경우
- 두 변수간 관계가 비선형인 경우 -> 변수변환으로 상관관계를 볼 수 있음
변수 변환
- 적절한 변수변환을 통하여 비선형 관계를 선형관계로 근사시킴
- - 예) (x,y)간 존재하는 원래의 비선형 관계가 (x, ln(Y))간 선형관계로 바뀐 경우
- 시간에 따라 곱으로 증가하는 경우 (매년 물가 상승 / 임금 상승 등)를 선형인 관계로 바꾸는 경우 로그변환을함.
해당 포스팅은 류근관 교수님의 <그림과 수치를 이용한 자료의 정리>강의를 참고하여 작성하였습니다
728x90
반응형
'Statistics & Math > 기초통계학' 카테고리의 다른 글
[기초통계학] 정규분포(표준정규분포, 표준화) (2) | 2024.03.14 |
---|---|
[기초통계학] 표준편차와 자유도 (1) | 2024.03.14 |
[기초통계학] 데이터와 통계량 - 평균과 중앙값 (0) | 2024.03.12 |
[기초통계학] 실험연구와 경험적연구(자연실험) (0) | 2024.03.10 |
[기초통계학] 통계학과 자료 / 선택편향과 생존편향 (0) | 2024.03.10 |