일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- text mining
- 튀르키예 여행
- mysql
- 데이터분석
- 텍스트마이닝
- 카파도키아
- 머신러닝
- 통계분석
- 튀르키예
- 스택/큐
- 기초통계학
- nlp
- 프로그래머스
- python
- 회귀분석
- Deep Learning
- 시계열분석
- 인과추론
- SparkSQL
- sparkml
- 터키 여행
- postgresql
- sql
- Machine Learning
- 딥러닝
- spark
- 파이썬
- ADP실기
- pyspark
- hackerrank
- Today
- Total
목록회귀분석 (20)
YSY의 데이터분석 블로그
다중회귀식의 분산 - 회귀분석은 여러개의 독립변수를 통해 종속변수 y의 분산을 얼마나 설명하느냐의 문제 - R-square값과 관계가 있음 ysyblog.tistory.com/168?category=1185073 [회귀분석] 단순선형회귀분석(Linear Regression)(7) - R-squared (R^2)(결정계수) (SST/SSR/SSE/Adjusted R-squared) 1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 :ysyblog.tistory.com/157 2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 :ysyblog.tistor.. ysyblog.tistory.com 다중공선성이란 위..
RMSE (제곱근-평균-제곱 오차) 추정의 표준오차(standard error of estimate) 또는 회귀의 표준오차 (standard error of regression)라고도 불림 실제 값과 예측치의 차이 회귀직선과 RMSE 회귀직선은 x값에 따라 분류된 부분집단 별로 자료의 중심을 알려줌 RMSE는 개별 관측치 속한 준거집단의 평균으로부터 떨어진 정도를 대략적으로 알려준다. 회귀직선과 RMSE를 알면 평균과 표준편차를 알 때처럼 68-95 법칙을 활용해 볼 수 있음. RMSE 공식 예시 산포도에서 전형적인 점(typical point)은 회귀직선으로부터 위 또는 아래로 9.3kg 정도 떨어져 있다. 실제 몸무게는 추정된 몸무게와 약 9.3kg 정도 다름 분모에 표본크기가 아닌 자유도가 사용 자..
회귀효과 - 평범으로의 회귀 평범으로의 회귀 : 측정한 값이 극단값인 경우, 다음에 측정하면 평균에 더 가까워지는 현상을 의미 중간고사에서 평균점수 정도 받은 학생들은 평균적으로 기말고사에서도 평균점수 정도를 받음 오른쪽 타원에 위치한 학생 오른쪽에 있는 길게 늘어진 타원형(중간고사에서 평균점수보다 잘 본 학생)들은 표준편차선 아래쪽에 위치한 경우가 많음 즉, 중간고사에서 평균보다 잘 본 학생들은 실력도 평균보다 위에 있을 수 있지만, 상대적으로 운이 좋은 학생들이 많이 포함되어 있을 가능성이 높음. 하지만 기말고사에서 운이 반복된다는 보장이 없기 때문에 인 표준편차선(기말고사에서는 같은 정도의 운이 반복 됐을 때 그려지는 선 )보다 아래쪽에 학생들이 좀 더 많이 위치하게됨 즉, 회귀직선상의 점은 표준편..
1. [회귀분석] 회귀분석 실습(1) - Statsmodel분석/데이터 스케일링(Python) : ysyblog.tistory.com/119 2. [회귀분석] 회귀분석 실습(2) - 잔차분석 (Python) : ysyblog.tistory.com/120 3. [회귀분석] 회귀분석 실습(3) - 변수선택법 (R) : ysyblog.tistory.com/121 해당 포스팅은 위 포스팅에 이어 진행됩니다. 다중공선성 독립 변수X는 종속변수 Y하고만 상관 관계가 있어야 하며, 독립 변수 X들끼리 상관 관계가 있어서는 안된다. 독립 변수간 상관 관계를 보이는 것을 다중공선성(Multicollinearity)이라고 한다. 다중공선성이 있으면 부정확한 회귀 결과가 도출될 수 있다. 다중공선성 확인 및 해결방법 포스팅..
1. [회귀분석] 회귀분석 실습(1) - Statsmodel분석/데이터 스케일링(Python) : ysyblog.tistory.com/119 2. [회귀분석] 회귀분석 실습(2) - 잔차분석 (Python) : ysyblog.tistory.com/120 해당 포스팅은 위 포스팅에 이어 진행됩니다. 변수선택법 변수선택법은 최적의 회귀방정식 선택에 도움을 주는 방법론이다 변수선택법에는 전진선택법, 후진제거법, 단계선택법이 있다. 파이썬에서는 OLS결과를 보면서 수작업으로 변수를 조정해야하지만, R에서는 step()라는 함수를 활용하여 변수선택법을 쉽게 할 수 있다. 최적회귀방정식의 선택 설명변수 선택 y에 영향을 미칠 수 있는 모든 설명변수 x들을 y의 값을 예측하는데 사용 데이터에 설명변수 x들의 수가 많..
1. [회귀분석] 회귀분석 실습(1) - Statsmodel분석/데이터 스케일링(Python) : ysyblog.tistory.com/119 해당 포스팅은 위 포스팅에 이어 진행됩니다. 잔차분석 잔차분석은 회귀모형에 대한 가정(정규성, 등분산성, 독립성)을 충족하는지에 대한 검정, 이상치가 개입하는지에 대한 검정을 하는 절차 import pandas as pd from statsmodels.formula.api import ols df = pd.read_csv('cars.csv') res = ols('dist ~ speed', data=df).fit() 모형의 선형성 예측값(fitted)과 잔차(residual)를 비교 모든 예측값에서 가운데 점선에 맞추어 잔차가 비슷하게 있어야 한다. 빨간 실선은 잔차..
Statsmodel을 활용한 회귀분석 statsmodels 패키지에서는 OLS 클래스를 사용하여 선형 회귀분석을 실시한다 독립변수와 종속변수가 모두 포함된 데이터프레임이 생성되며, 상수항 결합은 하지 않아도 된다. from_formula 메서드의 인수로 종속변수와 독립변수를 지정하는 formula 문자열을 넣는다. data 인수로는 독립변수와 종속변수가 모두 포함된 데이터프레임을 넣는다. EX) model = OLS.from_formula(formula, data=df) 또한 독립변수만 있는 데이터프레임 X와 종속변수만 있는 데이터프레임 y를 인수로 넣어서 만들 수도 있다. 이 때는 독립변수만 있는 데이터프레임 X가 상수항을 가지고 있어야 한다. EX) model = OLS(dfy, dfX) fit 메서..
로지스틱이 필요한 이유 - 종속변수가 특이할 경우 - 종속변수가 이항변수인 경우(변수가 가지는 값이 딱 2가지인 경우) OLS 회귀분석을 쓰면 안되는 이유 예제 : 타이타닉, 독립변수 : survived, 종속변수 : pclass import seaborn as sns import statsmodels.api as sm import pandas as pd import numpy as np titanic = sns.load_dataset("titanic") model1 = sm.OLS.from_formula("survived ~ C(pclass)", data=titanic) result1 = model1.fit() print(result1.summary()) 1st class의 생존 예측 결과 : 0.62..