반응형

StandardScaler 2

[SparkML] Spark ML 피쳐 변환(문자 카테고리형 데이터 처리, Scaling, Null값 채우기) (StringIndexer, OneHotEncoder) (StandardScaler, MinMaxScaler) (Imputer)

피쳐 추출과 변환 피쳐 값들을 모델 훈련에 적합한 형태로 바꾸는 것을 지칭 파이썬과 다르게 각각의 feature를 모델에 넣는 것이 아닌 feature를 하나의 vector로 묶어서 모델에 넣음 크게 두 가지가 존재: Feature Extractor와 Feature Transformer Feature Transformer https://spark.apache.org/docs/latest/ml-features.html#feature-transformers 피쳐 값들은 숫자 필드이어야함 텍스트 필드(카테고리 값들)를 숫자 필드로 변환해야함 숫자 필드 값의 범위 표준화 숫자 필드라고 해도 가능한 값의 범위를 특정 범위(0부터 1)로 변환해야 함 이를 피쳐 스케일링 (Feature Scaling) 혹은 정규화 ..

[Machine Learning][머신러닝] 데이터 전처리(범주형/연속형)

범주형 데이터 전처리 사이킷런은 문자열 값을 입력 값으로 처리 하지 않기 때문에 숫자 형으로 변환해야 한다. 범주형 변수(Categorical Variable) 몇 개의 범주 중 하나에 속하는 값들로 구성된 변수. 어떤 분류에 대한 속성을 가지는 변수를 말한다. 예) 성별 - 남/녀, 혈액형 - A, B, AB, O, 성적 - A,B,C,D,F 비서열(Unordered) 변수 범주에 속한 값간에 서열(순위)가 없는 변수 성별, 혈액형 서열 (Ordered) 변수 범주에 속한 값 간에 서열(순위)가 있는 변수 성적, 직급 사이킷런은 문자열 값을 입력 값으로 처리 하지 않기 때문에 숫자 형으로 변환해야 한다. 범주형 변수의 경우 전처리를 통해 정수값으로 변환한다. 범주형이 아닌 단순 문자열인 경우 일반적으로..

반응형