반응형

ADP실기 9

[ADP] ADP 합격 후기(필기 : 17회, 실기 : 18,19,20회)

ADP 필기 ADP 필기 결과는 다음과 같습니다. 데이터 분석 전문가 필기는 아래의 책으로 공부하였습니다. https://link.coupang.com/a/1ozYG 2023 ADsP 데이터 분석 준전문가 COUPANG www.coupang.com https://link.coupang.com/a/1oAa6 ADP 필기 데이터 분석 전문가 COUPANG www.coupang.com 파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음 최근에 제2회 빅데이터 분석기사 필기시험을 쳤었는데, ADP필기가 이보다 훨씬 어렵습니다. 커트라인도 높고 문제 난이도도 높으며 무엇보다 서술형이 굉장히 큰 부담이 됩니다. 시험시간에 3시간이라서 넉넉할 줄 알았는데, 서술형에서 거의 2시간을 썼었던 기억이 납니다. 오히려..

[회귀분석] 회귀분석 실습(4) - 다중공선성 (Python)

1. [회귀분석] 회귀분석 실습(1) - Statsmodel분석/데이터 스케일링(Python) : ysyblog.tistory.com/119 2. [회귀분석] 회귀분석 실습(2) - 잔차분석 (Python) : ysyblog.tistory.com/120 3. [회귀분석] 회귀분석 실습(3) - 변수선택법 (R) : ysyblog.tistory.com/121 해당 포스팅은 위 포스팅에 이어 진행됩니다. 다중공선성 독립 변수X는 종속변수 Y하고만 상관 관계가 있어야 하며, 독립 변수 X들끼리 상관 관계가 있어서는 안된다. 독립 변수간 상관 관계를 보이는 것을 다중공선성(Multicollinearity)이라고 한다. 다중공선성이 있으면 부정확한 회귀 결과가 도출될 수 있다. 다중공선성 확인 및 해결방법 포스팅..

[회귀분석] 회귀분석 실습(3) - 변수선택법 (R)

1. [회귀분석] 회귀분석 실습(1) - Statsmodel분석/데이터 스케일링(Python) : ysyblog.tistory.com/119 2. [회귀분석] 회귀분석 실습(2) - 잔차분석 (Python) : ysyblog.tistory.com/120 해당 포스팅은 위 포스팅에 이어 진행됩니다. 변수선택법 변수선택법은 최적의 회귀방정식 선택에 도움을 주는 방법론이다 변수선택법에는 전진선택법, 후진제거법, 단계선택법이 있다. 파이썬에서는 OLS결과를 보면서 수작업으로 변수를 조정해야하지만, R에서는 step()라는 함수를 활용하여 변수선택법을 쉽게 할 수 있다. 최적회귀방정식의 선택 설명변수 선택 y에 영향을 미칠 수 있는 모든 설명변수 x들을 y의 값을 예측하는데 사용 데이터에 설명변수 x들의 수가 많..

[회귀분석] 회귀분석 실습(1) - OLS 회귀분석 결과 해석 및 범주형 변수 처리 (Statsmodel)

Statsmodel을 활용한 회귀분석 statsmodels 패키지에서는 OLS 클래스를 사용하여 선형 회귀분석을 실시한다 독립변수와 종속변수가 모두 포함된 데이터프레임이 생성되며, 상수항 결합은 하지 않아도 된다. from_formula 메서드의 인수로 종속변수와 독립변수를 지정하는 formula 문자열을 넣는다. data 인수로는 독립변수와 종속변수가 모두 포함된 데이터프레임을 넣는다. EX) model = OLS.from_formula(formula, data=df) 또한 독립변수만 있는 데이터프레임 X와 종속변수만 있는 데이터프레임 y를 인수로 넣어서 만들 수도 있다. 이 때는 독립변수만 있는 데이터프레임 X가 상수항을 가지고 있어야 한다. EX) model = OLS(dfy, dfX) fit 메서..

[ADP] ADP실기 20회 후기 (복기 포함)

ADP실기를 위해 준비한 것들 1. 회귀분석(회귀분석 평가 및 statsmodel을 활용한 회귀 통계 분석, 잔차의 정규성/독립성/등분산성 확인, 변수선택법 등) 2. 분류분석(RandomForest, gradientboost, 로지스틱회귀, 인공신경망 등의 각종 분류방법과 voting 등 각종 앙상블 방법 및 confusion matrix등 분류분석 평가 등) 3. 교차분석, 분산분석(ANOVA), 상관분석 4. 군집분석(KNN, SOM. EM알고리즘 활용 등) 5. 연관분석(Aprori 알고리즘) 6. 표본추출과 T검정 7. 탐색적 요인분석(FA), 주성분분석(PCA), LEE 등 다양한 차원축소법 8. 시계열분석(ARIMA, SARIMA, MARIMA, MA, AR, 정상성 처리 등등) 9. 타겟변..

[통계분석] 상관분석 (ADP준비)

상관분석 import seaborn as sns titanic = sns.load_dataset("titanic") titanic=titanic.iloc[:,0:7] titanic.tail() titanic.dropna(axis=0, inplace=True) titanic.corr(method='pearson') titanic.corr(method='kendall') titanic.corr(method='spearman') corrr = titanic.corr(method='pearson') sns.pairplot(data=corrr) plt.show() # survived와 pclass의 피어슨 상관분석하고 검정결과 해석 import scipy.stats as stats # 피어슨 상관계수 검정 cor..

[통계분석] 분산분석(ANOVA), 이항검정 (ADP실기 준비)

분산분석(ANOVA) 두개이상 집단들의 평균간 차이에 대한 통계적 유의성을 검정 사후 검정 : 분산분석 후 어떤 집단이 유의미한 차이를 가지고 있는지 확인 귀무가설 : 집단들 사이의 평균은 같음 대립가설 : 집단들 사이의 평균은 다름 일원배치 분산분석 하나의 범주형 변수의 영향을 알아보기 위해 사용 모집단의 수는 제한 없으며, 표본의 수는 달라도 됨(3개 이상 집단간 차이가 있는지 검증) 가정 : 각 집단 측정치는 서로 독립이며, 정규분포를 따름, 분산이 같음(등분산 가정) F검정 통계량 사용 귀무가설 : k집단간 모평균에는 차이가 없음 대립가설 : k집단간 모평균에는 차이가 있음 from sklearn.datasets import load_iris iris = load_iris() df = pd.Dat..

[통계분석] 표본추출과 T검정 (ADP실기 준비)

데이터샘플링 표본추출 import pandas as pd import numpy as np from sklearn.datasets import load_iris iris = load_iris() df = pd.DataFrame(data=iris.data, columns=iris.feature_names) df['target'] = iris.target 층화임의추출 모집단이 이일적인 몇개의 계층으로 이루어져있을때 모든계층으로부터 원소를 임읠 추출하여 각 계층을 고루 대표할 수 있도록 랜덤하게 표본을 추출하는 방법 from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = \ train_test_split(ir..

[ADP] ADP실기 19회 후기 (복기 포함)

ADP실기를 위해 준비한 것들 1. 회귀분석(회귀분석 평가 및 statsmodel을 활용한 회귀 통계 분석, 잔차의 정규성/독립성/등분산성 확인, 변수선택법 등) 2. 분류분석(RandomForest, gradientboost, 로지스틱회귀, 인공신경망 등의 각종 분류방법과 voting 등 각종 앙상블 방법 및 confusion matrix등 분류분석 평가 등) 3. 교차분석, 분산분석(ANOVA), 상관분석 4. 군집분석(KNN, SOM. EM알고리즘 활용 등) 5. 연관분석(Aprori 알고리즘) 6. 표본추출과 T검정 7. 탐색적 요인분석(FA), 주성분분석(PCA), LEE 등 다양한 차원축소법 8. 시계열분석(ARIMA) 9. 타겟변수 불균형 처리 해결(언더샘플링, 오버샘플링) 10. 특징선택(..

반응형