반응형

Data Analysis & ML 109

[인과추론] A/B Test 설계 시 실험군 간의 누출 및 간섭

A/B Test 설계 시 실험군 간의 누출 및 간섭이번 포스팅에서는 A/B Test 설계를 할 때 실험군 간 간섭이 되는 경우와 이를 해결하는 방법을 알아봅니다.A/B Test 분석의 가정 : SUTVASUTVA : Stable Unit Treatment Value AssumptionA/B Test의 내적타당성을 지키기 위한 가정 중 하나 (생존 편향, SRM 등 3장 참고)각 그룹의 unit의 행동은 다른 그룹의 unit에 영향을 받지 않음 (독립)만약 안방의 스위치를 눌렀는데 불이켜지고, 다른 방에 영향을 주지 않는다면 이는 독립이라고 할 수 있음하지만 안방의 스위치를 눌렀는데, 다른 방에 불이 켜치거나, 두꺼비집이 내려가 불이 안켜진다면 독립이라고 할 수 없음SUTVA 가정을 위반한 경우 : 간섭(..

[Machine Learning][머신러닝] XGBoost의 개념과 예제 코드

XGBoost(Extra Gradient Boost)XGBoost란Gradient Boost 알고리즘을 기반으로 개선해서 나온 모델.캐글 경진대회에서 상위에 입상한 데이터 과학자들이 사용한 것을 알려저 유명해짐.Gradient Boost의 단점인 느린수행시간을 해결하고 과적합을 제어할 수 있는 규제를 제공하여 성능을 높임.두가지 개발 방법Scikit-learn  XGBoost 모듈 사용파이썬 XGBoost 모듈 사용XGBoost의 장점높은 성능 (실제로 Kaggle에서 XGboost가 상위권을 다수 차지)효율성, 유연성 ,휴대성이 뛰어남여러 파라미터를 조절해 가며 최적의 Model을 만들 수 있음과적합 방지신경망에 비해 시각화가 쉽고, 직관적임자원이 많으면 더 빠르게 학습시킬 수 있음Cross Valid..

Data Analysis & ML 2024.05.16

[Machine Learning][머신러닝] 릿지/라쏘/엘라스틱넷 (정규화 회귀분석)

릿지/라쏘/엘라스틱넷 (정규화 회귀분석) 모델링을 하다보면 과적합될때가 많은데 이때 과적합을 막는 방법은 모델에 규제를 가하는 것이다. 보통 선형회귀 모델링에서는 모델의 가중치를 제한함으로써 규제를 하는데, 이번 포스팅에서는 모델의 가중치를 제한하는 회귀분석인 릿지, 라쏘, 엘라스틱넷에 대해 알아본다.  정규화 방법론Regularized Method, Penalized Method, Contrained Least Squares선형회귀 계수(Weight)에 대한 제약 조건을 추가함으로써 모형이 과도하게 최적화되는 현상, 즉 과최적화를 막는 방법과최적화는 계수 크기를 과도하게 증가하는 경향이 있기에, 정규화 방법에서의 제약 조건은 일반적으로 계수의 크기를 제한하는 방법규제 (Regularization)선형..

Data Analysis & ML 2024.05.15

[인과추론] A/B Test와 지표(목표지표, 동인지표, 가드레일지표, 종합 평가 기준 (OEC))

이번 포스팅에서는 A/B Test를 할 때 사용하는 지표에 대해 알아보겠습니다. 지표의 분류 조직 운영을 위한 한가지 일반적인 방법에는 OKR(Objective – Key Results) 방법이 있으며, OKR에도 좋은 지표가 핵심임 지표를 정의하고 평가하고 달성하는 과정을 반복하는 것은 데이터 기반으로 의사결정을 수행하기 위한 인사이트를 획득하는데 도움이 됨 조직 지표를 논의할 때 일반적으로 사용되는 분류는 목표, 동인, 가드레일임 목표지표(Goal Metrics) 조직의 궁극적인 목표 및 회사/조직/제품의 존재 이유(Mission Statement) EX) 쇼핑몰의 경우 매출/주문자수 일 수 있으며, 플랫폼의 경우 방문자수(트래픽)이 목표일 수 있음 누구나 이해할 수 있도록 명확히 표현하야여함 조직의..

[회귀분석] 다중회귀분석(3) - 다중공선성(다중공선성 검정 및 해결)

다중회귀식의 분산- 회귀분석은 여러개의 독립변수를 통해 종속변수 y의 분산을 얼마나 설명하느냐의 문제- R-square값과 관계가 있음ysyblog.tistory.com/168?category=1185073 [회귀분석] 단순선형회귀분석(Linear Regression)(7) - R-squared (R^2)(결정계수) (SST/SSR/SSE/Adjusted R-squared)1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 :ysyblog.tistory.com/157 2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 :ysyblog.tistor..ysyblog.tistory.com 다중공선성이란 위와 같이 ..

[회귀분석] 단순선형회귀분석(Linear Regression)(11) - 회귀직선의 오차

RMSE (제곱근-평균-제곱 오차) 추정의 표준오차(standard error of estimate) 또는 회귀의 표준오차 (standard error of regression)라고도 불림 실제 값과 예측치의 차이 회귀직선과 RMSE 회귀직선은 x값에 따라 분류된 부분집단 별로 자료의 중심을 알려줌 RMSE는 개별 관측치 속한 준거집단의 평균으로부터 떨어진 정도를 대략적으로 알려준다. 회귀직선과 RMSE를 알면 평균과 표준편차를 알 때처럼 68-95 법칙을 활용해 볼 수 있음. RMSE 공식 예시 산포도에서 전형적인 점(typical point)은 회귀직선으로부터 위 또는 아래로 9.3kg 정도 떨어져 있다. 실제 몸무게는 추정된 몸무게와 약 9.3kg 정도 다름 분모에 표본크기가 아닌 자유도가 사용 자..

[회귀분석] 단순선형회귀분석(Linear Regression)(10) - 회귀효과 / 회귀오류

회귀효과 - 평범으로의 회귀 평범으로의 회귀 : 측정한 값이 극단값인 경우, 다음에 측정하면 평균에 더 가까워지는 현상을 의미 중간고사에서 평균점수 정도 받은 학생들은 평균적으로 기말고사에서도 평균점수 정도를 받음 오른쪽 타원에 위치한 학생 오른쪽에 있는 길게 늘어진 타원형(중간고사에서 평균점수보다 잘 본 학생)들은 표준편차선 아래쪽에 위치한 경우가 많음 즉, 중간고사에서 평균보다 잘 본 학생들은 실력도 평균보다 위에 있을 수 있지만, 상대적으로 운이 좋은 학생들이 많이 포함되어 있을 가능성이 높음. 하지만 기말고사에서 운이 반복된다는 보장이 없기 때문에 인 표준편차선(기말고사에서는 같은 정도의 운이 반복 됐을 때 그려지는 선 )보다 아래쪽에 학생들이 좀 더 많이 위치하게됨 즉, 회귀직선상의 점은 표준편..

[인과추론] Structural Causal Model(SCMs) (구조적 인과모형)

Causality란?Correlation과 Causality만약 아래의 데이터가 있다고 가정할 때, 운동과 콜레스테롤 수치에 Correlation(상관관계)가 있는것으로 보이는데, 과연 운동을 많이할 수록 콜레스테롤 수치가 높다고 인과관계를 정의할 수 있는가데이터를 더 detail하게 뜯어보면, 나이에 따라 보면, 운동을 많이할 수록 콜레스테롤 수치가 줄어드는것으로 볼 수 있다.따라서 Correlation (상관관계)은 Casuality(인과관계)가 아니다.CounterfactualPotential Outcome(PO)X가 원인이고 Y가 결과이며, 만약 X가 x로 고정되었을때 (원인이 명확해졌을때)$Y_{X=1} = 1$ & $Y_{X=0} = 0 $X가 일어났으면 Y도 일어나며, X가 일어나지 않았을때..

[회귀분석] 회귀분석 실습(4) - 다중공선성 (Python)

다중공선성독립 변수X는 종속변수 Y하고만 상관 관계가 있어야 하며, 독립 변수 X들끼리 상관 관계가 있어서는 안된다.독립 변수간 상관 관계를 보이는 것을 다중공선성(Multicollinearity)이라고 한다.다중공선성이 있으면 부정확한 회귀 결과가 도출될 수 있다.다중공선성 확인 및 해결방법 포스팅ysyblog.tistory.com/171 [회귀분석] 다중회귀분석(2) - 다중공선성(다중공선성 검정 및 해결)1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 :ysyblog.tistory.com/157 2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 :ysyblog.tistor..ysyblog.tisto..

[회귀분석] 회귀분석 실습(3) - 변수선택법 (R)

이번 포스팅은 모델링을 할때 사용하는 변수선택법에 대해 알아봅니다.변수선택법변수선택법은 최적의 회귀방정식 선택에 도움을 주는 방법론이다변수선택법에는 전진선택법, 후진제거법, 단계선택법이 있다.파이썬에서는 OLS결과를 보면서 수작업으로 변수를 조정해야하지만, R에서는 step()라는 함수를 활용하여 변수선택법을 쉽게 할 수 있다. 최적회귀방정식의 선택설명변수 선택y에 영향을 미칠 수 있는 모든 설명변수 x들을 y의 값을 예측하는데 사용데이터에 설명변수 x들의 수가 많아지면 관리하는데 많은 노력이 요구되므로, 가능한 범위 내에서 적은 수의 설명변수를 선택모형선택(exploratory analysis) : 분석 데이터에 가장 잘 맞는 모형을 찾아내는 방법모든 가능한 독립변수들의 조합에 대한 회귀모형을 생성한 ..

반응형