반응형

정규화 3

[회귀분석] 회귀분석 실습(4) - 다중공선성 (Python)

다중공선성독립 변수X는 종속변수 Y하고만 상관 관계가 있어야 하며, 독립 변수 X들끼리 상관 관계가 있어서는 안된다.독립 변수간 상관 관계를 보이는 것을 다중공선성(Multicollinearity)이라고 한다.다중공선성이 있으면 부정확한 회귀 결과가 도출될 수 있다.다중공선성 확인 및 해결방법 포스팅ysyblog.tistory.com/171 [회귀분석] 다중회귀분석(2) - 다중공선성(다중공선성 검정 및 해결)1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 :ysyblog.tistory.com/157 2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 :ysyblog.tistor..ysyblog.tisto..

[관계형 데이터 모델링] 논리적 데이터 모델링, 물리적 데이터 모델링(정규화, 역정규화)

논리적 데이터 모델링 정규화 - 중복을 제거하는 과정(쓰기의 편리함을 위해 읽기의 편리함을 희생) 제 1 정규화 - Atomic columns : 각각의 컬럼의 값은 값을 1개만 가져야함 - 하나의 컬럼을 두개의 컬럼으로 만들 수도 있지만, 테이블로 쪼개는 것이 좋음 제 2 정규화 - 부분 종속성이 없어야함 : 기본키 중에 중복키가 없어야함 - 부분적으로 종속되는 칼럼들을 따로 쪼개서 테이블을 만들어야 함 제 3 정규화 - No transitive dependencies : 이행적종속성 - 식별되는 ID와 이에 딸린 칼럼들을 분리해 내야함. 물리적 데이터 모델링 역정규화 - 정규화를 할 수록 Join을 많이 써야하기 때문에 성능이 떨어질 수 있음, 따라서 성능의 향상을 위해 join 사용횟수를 줄이기 위..

[Machine Learning][머신러닝] 데이터 전처리(범주형/연속형)

이번 포스팅에서는 머신러닝 모델링을 위해 범주형데이터와 연속형데이터를 처리하는 방법을 알아보겠습니다.범주형 데이터 전처리사이킷런은 문자열 값을 입력 값으로 처리 하지 않기 때문에 숫자 형으로 변환해야 한다.범주형 변수 (Categorical Variable)몇 개의 범주 중 하나에 속하는 값들로 구성된 변수. 어떤 분류에 대한 속성을 가지는 변수를 말한다.예) 성별 - 남/녀, 혈액형 - A, B, AB, O, 성적 - A,B,C,D,F비서열(Unordered) 변수범주에 속한 값간에 서열(순위)가 없는 변수성별, 혈액형서열 (Ordered) 변수범주에 속한 값 간에 서열(순위)가 있는 변수성적, 직급사이킷런은 문자열 값을 입력 값으로 처리 하지 않기 때문에 숫자 형으로 변환해야 한다.범주형 변수의 경우..

반응형