일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- postgresql
- 통계분석
- SparkSQL
- 머신러닝
- hackerrank
- 텍스트마이닝
- 스택/큐
- text mining
- 데이터분석
- nlp
- 회귀분석
- 카파도키아
- ADP실기
- python
- 파이썬
- 시계열분석
- Machine Learning
- pyspark
- mysql
- 터키 여행
- spark
- sparkml
- 딥러닝
- 프로그래머스
- Deep Learning
- 튀르키예 여행
- 인과추론
- sql
- 기초통계학
- 튀르키예
- Today
- Total
목록분류 전체보기 (333)
YSY의 데이터분석 블로그
이번 포스팅에서는 A/B Test를 할 때 사용하는 지표에 대해 알아보겠습니다. 지표의 분류 조직 운영을 위한 한가지 일반적인 방법에는 OKR(Objective – Key Results) 방법이 있으며, OKR에도 좋은 지표가 핵심임 지표를 정의하고 평가하고 달성하는 과정을 반복하는 것은 데이터 기반으로 의사결정을 수행하기 위한 인사이트를 획득하는데 도움이 됨 조직 지표를 논의할 때 일반적으로 사용되는 분류는 목표, 동인, 가드레일임 목표지표(Goal Metrics) 조직의 궁극적인 목표 및 회사/조직/제품의 존재 이유(Mission Statement) EX) 쇼핑몰의 경우 매출/주문자수 일 수 있으며, 플랫폼의 경우 방문자수(트래픽)이 목표일 수 있음 누구나 이해할 수 있도록 명확히 표현하야여함 조직의..
다중회귀식의 분산 - 회귀분석은 여러개의 독립변수를 통해 종속변수 y의 분산을 얼마나 설명하느냐의 문제 - R-square값과 관계가 있음 ysyblog.tistory.com/168?category=1185073 [회귀분석] 단순선형회귀분석(Linear Regression)(7) - R-squared (R^2)(결정계수) (SST/SSR/SSE/Adjusted R-squared) 1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 :ysyblog.tistory.com/157 2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 :ysyblog.tistor.. ysyblog.tistory.com 다중공선성이란 위..
RMSE (제곱근-평균-제곱 오차) 추정의 표준오차(standard error of estimate) 또는 회귀의 표준오차 (standard error of regression)라고도 불림 실제 값과 예측치의 차이 회귀직선과 RMSE 회귀직선은 x값에 따라 분류된 부분집단 별로 자료의 중심을 알려줌 RMSE는 개별 관측치 속한 준거집단의 평균으로부터 떨어진 정도를 대략적으로 알려준다. 회귀직선과 RMSE를 알면 평균과 표준편차를 알 때처럼 68-95 법칙을 활용해 볼 수 있음. RMSE 공식 예시 산포도에서 전형적인 점(typical point)은 회귀직선으로부터 위 또는 아래로 9.3kg 정도 떨어져 있다. 실제 몸무게는 추정된 몸무게와 약 9.3kg 정도 다름 분모에 표본크기가 아닌 자유도가 사용 자..
회귀효과 - 평범으로의 회귀 평범으로의 회귀 : 측정한 값이 극단값인 경우, 다음에 측정하면 평균에 더 가까워지는 현상을 의미 중간고사에서 평균점수 정도 받은 학생들은 평균적으로 기말고사에서도 평균점수 정도를 받음 오른쪽 타원에 위치한 학생 오른쪽에 있는 길게 늘어진 타원형(중간고사에서 평균점수보다 잘 본 학생)들은 표준편차선 아래쪽에 위치한 경우가 많음 즉, 중간고사에서 평균보다 잘 본 학생들은 실력도 평균보다 위에 있을 수 있지만, 상대적으로 운이 좋은 학생들이 많이 포함되어 있을 가능성이 높음. 하지만 기말고사에서 운이 반복된다는 보장이 없기 때문에 인 표준편차선(기말고사에서는 같은 정도의 운이 반복 됐을 때 그려지는 선 )보다 아래쪽에 학생들이 좀 더 많이 위치하게됨 즉, 회귀직선상의 점은 표준편..
산포도 (Scatter plot) 두 변수 사이의 관계를 살펴보기 위해 산포도를 이용한다. 설명변수는 x로 표기하고 가로축에 표시 피설명변수는 y로 표기하고 세로축에 표시 설명변수와 피설명변수간 관계가 약한경우 변수 사이의 관계가 약하면 한 변수 값으로 다른 변수 값을 예측하기 어려움 위 산포도에서 중간고사에서 150점 받은 학생들의 기말고사 성적은 55점에서 175점 사이에 분포하므로 중간고사 점수로 기말고사 점수를 예측하기 어려움 설명변수와 피설명변수간 관계가 강한경우 변수 사이의 관계가 강하면 한 변수 값으로 다른 변수 값을 예측하는것이 가능해짐 아래 산포도에서 중간고사에서 150점 받은 학생들의 기말고사 성적은 105점에서 175점 사이에 분포함 (위 케이스보다 예측 범위가 감소함) 상관계수 상관..
표준편차 포스팅에서 이어지는 내용입니다 https://ysyblog.tistory.com/163 [기초통계학] 표준편차와 자유도 제곱근-평균-제곱 (Root Mean Square) (RMS) 계산은 표현의 역순(제곱 후 평균, 최종적으로 제곱근) 제곱 (S) : 모든 수를 제곱하여 부호를 없앤다. 평균 (M) : 제곱된 값들의 평균을 구한다. 제곱근 (R) : 제 ysyblog.tistory.com 정규분포(Normal Distribution) 정규 분포(normal distribution) 또는 가우스 분포(Gaussian distribution)는 연속 확률 분포 중 하나를 의미 정규분포는 2개의 모수 $\mu, \sigma$로 (평균, 표준편차)로 결정되며 $N(\mu, \sigma^2)$로 표현 ..
제곱근-평균-제곱 (Root Mean Square) (RMS) 계산은 표현의 역순(제곱 후 평균, 최종적으로 제곱근) 제곱 (S) : 모든 수를 제곱하여 부호를 없앤다. 평균 (M) : 제곱된 값들의 평균을 구한다. 제곱근 (R) : 제곱-평균된 값에 제곱근을 취한다. 표준편차 표준편차(SD)는 “평균으로부터의 편차들”의 RMS와 “대략” 비슷 (편차들에 대해 적용한 RMS) 다만 중간에 있는 M을 계산할때 1을빼서 계산 (CF. 이것과 관계있는 개념이 자유도) 표준편차는 관측치들이 평균으로부터 얼마나 떨어져 있는지 알려줌 평균값을 중심으로 평균적으로 s만큼 퍼져 있다는 의미 만약 어떤 집단의 평균값이 3이고 표준편차가 1.5라면, 좌우로 1.5(1.5 ~ 4.5)정도 퍼져있다는 것. 68-95법칙 관측..
데이터와 통계량 변수 : 어떤 대응관계로 변화하는 수, 혹은 함수관계로 대응하며 주어진 범위 안에서 변화하는수 → 변수는 데이터로 구성되고, 데이터를 근거로 변수의 특성을 파악 데이터 : 조사의 목적에 맞는 변수를 기반으로, 표본으로부터 수집된 자료 → 사회과학분야에서 보통 통계조사를 할때는 표본의 특징을 표현하기 위해 단일자료 수집 → 핵심적 연구나 조사를 목적으로 할 때는 다중자료를 수집 기초 통계량 평균 (Mean) 평균(mean)은 관측치의 총합을 관측치의 개수로 나누어 구한다. 중심경향도 : 데이터를 종합하여 그 중심을 이루는 값이 어느정도가 될지를 구한 것 통계에서 가장 많이 사용되는 중심경향도(u) 표본의 특성을 제시할 때 가장 먼저 사용 중앙값 (Median) 절반 이상의 숫자들이 이 값보..