자격증 & 문제풀이/자격증 후기

[ADP] ADP실기 19회 후기 (복기 포함)

YSY^ 2020. 12. 19. 16:33

ADP실기 19회 후기 (복기 포함)

ADP실기를 위해 준비한 것들

1. 회귀분석(회귀분석 평가 및 statsmodel을 활용한 회귀 통계 분석, 잔차의 정규성/독립성/등분산성 확인, 변수선택법 등)

2. 분류분석(RandomForest, gradientboost, 로지스틱회귀, 인공신경망 등의 각종 분류방법과 voting 등 각종 앙상블 방법 및 confusion matrix등 분류분석 평가 등)

3. 교차분석, 분산분석(ANOVA), 상관분석

4. 군집분석(KNN, SOM. EM알고리즘 활용 등)

5. 연관분석(Aprori 알고리즘)

6. 표본추출과 T검정

7. 탐색적 요인분석(FA), 주성분분석(PCA), LEE 등 다양한 차원축소법

8. 시계열분석(ARIMA)

9. 타겟변수 불균형 처리 해결(언더샘플링, 오버샘플링)

10. 특징선택(분산, 단일변수 선택, 특성중요도 계산)

11. Datetime, Random 등 기타 pandas 활용 함수들

 

ADP 실기 Preview

사실 ADP 18회에 이어 두번째 시험이었으며, ADP18회에서는 시계열을 제대로 준비하지 못하여 시험을 잘 보지 못하였습니다. 설마 시계열이 또나올까 생각되고 또한 Python을 활용하기에는 까다롭기 때문에 준비하지 않으려 하였지만, 시간이 조금 남았기에 R로 시계열을 준비하였습니다.

또한 ADP 19회부터는 시험환경이 바뀌었는데, 기존까지는 로컬컴퓨터를 활용해서 분석 하는 것이었지만, 이번부터는 클라우드에 접속해서 하는 것으로 바뀌었습니다. 또한 문제 제출도 기존에는 로컬컴퓨터에 저장하는 것이었다면, 19회부터는 웹에 제출하는 것으로 바뀌었습니다. 

www.dataq.or.kr/www/board/view.do?bbsKey=eyJiYnNhdHRyU2VxIjoxLCJiYnNTZXEiOjUwNjk1M30=&boardKind=notice

 

데이터자격시험

 

www.dataq.or.kr

 

ADP 19회 문제

- 이번 19회에서는 기계학습과, 통계분석만 나오고 텍스트 마이닝은 출제되지 않았습니다.

- 시험문제를 써서 나올 수 없어 기억에 의존하여 복기하였기에, 문제가 정확하지 않을 수 있다는 점 미리 말씀드립니다.

 

1. 기계학습(DATA : credit데이터 - 고객이 이탈되었는지 아닌지 분류하는 문제) (총 50점)

- 독립변수로는 성별, 나이, 카드등급, 소득 등의 변수들이 있었습니다.

1-1 : 데이터 전처리 및 시각화(5점) - 연속형변수와 문자로된 범주형 변수를 처리해야합니다.

1-2 : Train과 Test를 7:3으로 나누고 분류분석 3개 실시 및 Confusion Matrix 만들기(15점)

1-3 : 위에서 실시한 분류분석 3개를 앙상블하여 Credit_test를 예측하고(credit_test.csv는 따로 주어짐) result.csv로 만들어서 제출하기(30점)

- 1-1과 1-2는 기존처럼 코드와 해석결과를 PDF로 만들어서 제출하면 되고 1-3은 CSV파일로 제출하면 됩니다.

 

2. 통계학습(DATA : Traffic EPS 시계열 분석 - 20년치 데이터이며 1년에 4개씩 데이터가 존재(분기별로 존재)) (총 50점)

2-1 시계열 데이터의 정규성과 이분산성을 분석하기 위해 시각화하고 설명(10점)

2-2 위에서 시계열데이터가 정규성이 아니라면, 고정시계열이 있는지 확인하고 이를 처리(15점)

2-3 SARIMA 분석을 실시, 여러 파라미터를 적용해보고 가장 성능이 좋은 것을 제시(15점)

2-4 위에서 제시한 모델의 잔차와 잡음에 대해 시각화하고 분석(10점)

 

ADP 19회 REVIEW

1. 기계학습 문제는 무난했다고 할 수 있습니다. 분류문제의 기본적인 전처리, 분류분석, 앙상블 분석 진행을 하면 되기 때문입니다. 다만 1-3은 CSV파일로 만들어서 제출해야하는데, 분석과정을 요구하지 않은 것으로 보아 성능(실제로 맞는지)만으로 평가할 것으로 예상됩니다.

2. 통계학습 문제에서는 진흥원이 '이건 몰랐지' 스킬을 또 실행했다고 할 수 있다. 사실 SARIMA라는 것을 들어본 사람은 거의 없을것입니다.. 필자도 처음 들어본 기법입니다. 주력언어는 PYTHON이지만 시계열 통계분석은 R이 유리하기 때문에 시계열은 R로 준비해갔는데 SARIMA는 처음들어봤기 때문에 패키지 찾는 곳에서 SARIMA를 직접 찾아야 했습니다. 

2-1 : 이분산성이 뭔지 몰랐는데, 등분산성과 관련있는것 같아, 등분산성과 관련하여 적었습니다. 그런데 실제로 등분산이 결여된 경우가 이분산이라고 합니다.

2-2 : 고정시계열이 뭔지 모르겠습니다.(찾아봐도 뭔지 모르겠습니다), 따라서 추세나 계절성 등을 처리하여 정상시계열을 만들라고 하는것이라고 판단하였습니다. 어처피 시계열분석을 하려면 차분을 하던지해서 정상시계열로 만들어야하기 때문이기 때문에 그 과정을 처리하는 부분이라고 생각하였습니다.

2-3 : 위에서 말했던것 처럼 R 패키지 찾는 곳에 검색을 해서 Auto.sarima라는 것을 알아내었고, 이를 활용해서 꾸역꾸역 문제를 풀었는데, 확실하지 않습니다.

2-4 : 시계열의 잔차나, 잡음 분석을 공부해가지 않아 제대로 풀지 못하였습니다.

 

ADP 19회 총평

1번 기계분석은 무난하게 나왔지만, 2번 시계열 통계분석은 정말 할말이 없다. 사실 시계열 분석이 연속으로 나올거라 예상하지도 못했으며, 난생 처음들어보는 분석을 하라고 할 줄은 몰랐다. 진흥원책자에 시계열 분석이 많지 않은데 왜이리 시계열 분석을 좋아하는지 모르겠습니다..(진흥원 책자에 SARIMA라는 것이 있는지도 모르겠다)

만약 이번 실기에 떨어진다면 시계열에 대해 더 공부해야할 것 같습니다. 추가로 SARIMA를 찾아보다가 MARIMA등 다양한 시계열 분석방법이 있는데 이에 대해 잘 공부를 해야할 것 같습니다.

그리고 저처럼 파이썬을 주력으로 쓰는 사람들은 R도 사용하는 것을 추천합니다. 파이썬으로 하기 힘든 것이 대표적으로 회귀분석에 변수선택법(전진/후진/단계적), 시계열 통계분석, 군집분석의 SOM, EM 등이 있는데, 처음에는 이를 파이썬으로 하려고 했으나 결국 R로하는 것이 훨씬 편하고 깔끔하다는 것을 깨달았기 때문입니다.

ADP 후기가 굉장히 부족해 준비가 어렵다는 것을 알기에 기억을 최대한 짜내어 후기를 작성해보았으며, ADP를 준비하는 사람들에게 조금이라도 도움이 되었으면 좋겠습니다.

 

https://coupa.ng/bQ4w2i

 

마이크로소프트 Sculpt Comfort Desktop 무선키보드 + 마우스

COUPANG

www.coupang.com

 

728x90
반응형