반응형

빅데이터 2

[Hadoop] 대용량 분산시스템 Hadoop과 MapReduce (Hadoop 1.0, Hadoop 2.0, Hadoop 3.0)

대용량 분산 시스템분산 환경 기반 (1대 혹은 그 이상의 서버로 구성)분산 파일 시스템과 분산 컴퓨팅 시스템이 필요Fault Tolerance소수의 서버가 고장나도 동작해야함확장이 용이해야함즉, Scale Out이 되어야함Hadoop(하둡)Doug Cutting이 구글랩 발표 논문들에 기반해 만든 오픈소스 프로젝트2003년 The Google File System2004년 MapReduce: Simplified Data Processing on Large Cluster처음 시작은 Nutch라는 오픈소스 검색엔진의 하부 프로젝트하둡은 Doug Cutting의 아들의 코끼리 인형의 이름2006년에 아파치 톱레벨 별개 프로젝트로 떨어져나옴하둡의 정의 An open source software platform ..

[ADP] ADP실기 19회 후기 (복기 포함)

ADP실기 19회 후기 (복기 포함)ADP실기를 위해 준비한 것들1. 회귀분석(회귀분석 평가 및 statsmodel을 활용한 회귀 통계 분석, 잔차의 정규성/독립성/등분산성 확인, 변수선택법 등)2. 분류분석(RandomForest, gradientboost, 로지스틱회귀, 인공신경망 등의 각종 분류방법과 voting 등 각종 앙상블 방법 및 confusion matrix등 분류분석 평가 등)3. 교차분석, 분산분석(ANOVA), 상관분석4. 군집분석(KNN, SOM. EM알고리즘 활용 등)5. 연관분석(Aprori 알고리즘)6. 표본추출과 T검정7. 탐색적 요인분석(FA), 주성분분석(PCA), LEE 등 다양한 차원축소법8. 시계열분석(ARIMA)9. 타겟변수 불균형 처리 해결(언더샘플링, 오버샘플링..

반응형