반응형

MinMaxScaler 2

[SparkML] Spark ML 피쳐 변환(문자 카테고리형 데이터 처리, Scaling, Null값 채우기) (StringIndexer, OneHotEncoder) (StandardScaler, MinMaxScaler) (Imputer)

피쳐 추출과 변환 피쳐 값들을 모델 훈련에 적합한 형태로 바꾸는 것을 지칭 파이썬과 다르게 각각의 feature를 모델에 넣는 것이 아닌 feature를 하나의 vector로 묶어서 모델에 넣음 크게 두 가지가 존재: Feature Extractor와 Feature Transformer Feature Transformer https://spark.apache.org/docs/latest/ml-features.html#feature-transformers 피쳐 값들은 숫자 필드이어야함 텍스트 필드(카테고리 값들)를 숫자 필드로 변환해야함 숫자 필드 값의 범위 표준화 숫자 필드라고 해도 가능한 값의 범위를 특정 범위(0부터 1)로 변환해야 함 이를 피쳐 스케일링 (Feature Scaling) 혹은 정규화 ..

[Machine Learning][머신러닝] 데이터 전처리(범주형/연속형)

이번 포스팅에서는 머신러닝 모델링을 위해 범주형데이터와 연속형데이터를 처리하는 방법을 알아보겠습니다.범주형 데이터 전처리사이킷런은 문자열 값을 입력 값으로 처리 하지 않기 때문에 숫자 형으로 변환해야 한다.범주형 변수 (Categorical Variable)몇 개의 범주 중 하나에 속하는 값들로 구성된 변수. 어떤 분류에 대한 속성을 가지는 변수를 말한다.예) 성별 - 남/녀, 혈액형 - A, B, AB, O, 성적 - A,B,C,D,F비서열(Unordered) 변수범주에 속한 값간에 서열(순위)가 없는 변수성별, 혈액형서열 (Ordered) 변수범주에 속한 값 간에 서열(순위)가 있는 변수성적, 직급사이킷런은 문자열 값을 입력 값으로 처리 하지 않기 때문에 숫자 형으로 변환해야 한다.범주형 변수의 경우..

반응형