반응형

정규화 3

[회귀분석] 회귀분석 실습(4) - 다중공선성 (Python)

1. [회귀분석] 회귀분석 실습(1) - Statsmodel분석/데이터 스케일링(Python) : ysyblog.tistory.com/119 2. [회귀분석] 회귀분석 실습(2) - 잔차분석 (Python) : ysyblog.tistory.com/120 3. [회귀분석] 회귀분석 실습(3) - 변수선택법 (R) : ysyblog.tistory.com/121 해당 포스팅은 위 포스팅에 이어 진행됩니다. 다중공선성 독립 변수X는 종속변수 Y하고만 상관 관계가 있어야 하며, 독립 변수 X들끼리 상관 관계가 있어서는 안된다. 독립 변수간 상관 관계를 보이는 것을 다중공선성(Multicollinearity)이라고 한다. 다중공선성이 있으면 부정확한 회귀 결과가 도출될 수 있다. 다중공선성 확인 및 해결방법 포스팅..

[관계형 데이터 모델링] 논리적 데이터 모델링, 물리적 데이터 모델링(정규화, 역정규화)

논리적 데이터 모델링 정규화 - 중복을 제거하는 과정(쓰기의 편리함을 위해 읽기의 편리함을 희생) 제 1 정규화 - Atomic columns : 각각의 컬럼의 값은 값을 1개만 가져야함 - 하나의 컬럼을 두개의 컬럼으로 만들 수도 있지만, 테이블로 쪼개는 것이 좋음 제 2 정규화 - 부분 종속성이 없어야함 : 기본키 중에 중복키가 없어야함 - 부분적으로 종속되는 칼럼들을 따로 쪼개서 테이블을 만들어야 함 제 3 정규화 - No transitive dependencies : 이행적종속성 - 식별되는 ID와 이에 딸린 칼럼들을 분리해 내야함. 물리적 데이터 모델링 역정규화 - 정규화를 할 수록 Join을 많이 써야하기 때문에 성능이 떨어질 수 있음, 따라서 성능의 향상을 위해 join 사용횟수를 줄이기 위..

[Machine Learning][머신러닝] 데이터 전처리(범주형/연속형)

범주형 데이터 전처리 사이킷런은 문자열 값을 입력 값으로 처리 하지 않기 때문에 숫자 형으로 변환해야 한다. 범주형 변수(Categorical Variable) 몇 개의 범주 중 하나에 속하는 값들로 구성된 변수. 어떤 분류에 대한 속성을 가지는 변수를 말한다. 예) 성별 - 남/녀, 혈액형 - A, B, AB, O, 성적 - A,B,C,D,F 비서열(Unordered) 변수 범주에 속한 값간에 서열(순위)가 없는 변수 성별, 혈액형 서열 (Ordered) 변수 범주에 속한 값 간에 서열(순위)가 있는 변수 성적, 직급 사이킷런은 문자열 값을 입력 값으로 처리 하지 않기 때문에 숫자 형으로 변환해야 한다. 범주형 변수의 경우 전처리를 통해 정수값으로 변환한다. 범주형이 아닌 단순 문자열인 경우 일반적으로..

반응형