반응형

데이터분석 14

[통계분석] 탐색적 요인분석(FA) (ADP실기 준비)

탐색적 요인 분석 요인 분석 (FA)은 관찰 된 변수 집합에서 영향력있는 기본 요인 또는 잠재 변수를 검색하는 데 사용되는 탐색적 데이터 분석 방법이다. 변수 수를 줄여 데이터 해석에 도움을 준다. 모든 변수에서 최대 공분산을 추출하여 공통 점수에 넣는다. 요인 분석은 시장 조사, 광고, 심리학, 금융 및 운영 연구에 널리 사용됨. 예를 들어, 시장 조사원은 요인 분석을 사용하여 가격에 민감한 고객을 식별하고 소비자 선택에 영향을 미치는 브랜드 기능을 식별하며 유통 채널에 대한 채널 선택 기준을 이해하는 데 도움을 준다. 탐색적 요인 분석의 전제조건 등간척도, 정규분포, 관찰치가 상호독립적이며 분산이 동일해야한다. 모상관 행렬이 단위 행렬이라는 가설이 기각되어야함(KMO / Bartleet의 검정) 최초..

[통계분석] PCA(주성분분석) (ADP실기 준비)

주성분분석 고차원의 데이터를 저차원의 데이터로 환원시키는 기법 데이터를 어떤 기준을 바탕으로 변환을 하고, 그 변환으로 인해 '주성분'이 추출된다. 따라서 추출된 주성분은 원래 가지고 있는 데이터와 다르다. 변환된 데이터이다. 따라서 변수의 의미가 중요한 경우에는 PCA를 사용하면 안 된다. 왜냐면, PCA는 데이터에 변환을 가하는 것이기 때문이다. PCA는 탐색적 분석이다. 즉, 변인을 탐색해서 변환을 통해 주성분을 결정하는 방법이다. PCA의 본질은 차원 축소이다. 차원이 축소됐다는 것은 원본 데이터가 아니라 변환(projection) 된 데이터, 즉 주성분을 이용해 분석 혹은 모델링을 진행하겠다는 것이다. import pandas as pd url = "https://archive.ics.uci.e..

[통계분석] 표본추출과 T검정 (ADP실기 준비)

데이터샘플링 표본추출 import pandas as pd import numpy as np from sklearn.datasets import load_iris iris = load_iris() df = pd.DataFrame(data=iris.data, columns=iris.feature_names) df['target'] = iris.target 층화임의추출 모집단이 이일적인 몇개의 계층으로 이루어져있을때 모든계층으로부터 원소를 임읠 추출하여 각 계층을 고루 대표할 수 있도록 랜덤하게 표본을 추출하는 방법 from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = \ train_test_split(ir..

[ADP] ADP실기 19회 후기 (복기 포함)

ADP실기를 위해 준비한 것들 1. 회귀분석(회귀분석 평가 및 statsmodel을 활용한 회귀 통계 분석, 잔차의 정규성/독립성/등분산성 확인, 변수선택법 등) 2. 분류분석(RandomForest, gradientboost, 로지스틱회귀, 인공신경망 등의 각종 분류방법과 voting 등 각종 앙상블 방법 및 confusion matrix등 분류분석 평가 등) 3. 교차분석, 분산분석(ANOVA), 상관분석 4. 군집분석(KNN, SOM. EM알고리즘 활용 등) 5. 연관분석(Aprori 알고리즘) 6. 표본추출과 T검정 7. 탐색적 요인분석(FA), 주성분분석(PCA), LEE 등 다양한 차원축소법 8. 시계열분석(ARIMA) 9. 타겟변수 불균형 처리 해결(언더샘플링, 오버샘플링) 10. 특징선택(..

반응형