일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- pyspark
- 텍스트마이닝
- 튀르키예
- nlp
- text mining
- 머신러닝
- 파이썬
- 통계분석
- python
- SparkSQL
- ADP실기
- postgresql
- 프로그래머스
- mysql
- 카파도키아
- Machine Learning
- 튀르키예 여행
- spark
- 인과추론
- Deep Learning
- 회귀분석
- 터키 여행
- 데이터분석
- sql
- 딥러닝
- hackerrank
- 시계열분석
- 스택/큐
- 기초통계학
- sparkml
- Today
- Total
목록통계분석 (9)
YSY의 데이터분석 블로그
1. [회귀분석] 회귀분석 실습(1) - Statsmodel분석/데이터 스케일링(Python) : ysyblog.tistory.com/119 2. [회귀분석] 회귀분석 실습(2) - 잔차분석 (Python) : ysyblog.tistory.com/120 3. [회귀분석] 회귀분석 실습(3) - 변수선택법 (R) : ysyblog.tistory.com/121 해당 포스팅은 위 포스팅에 이어 진행됩니다. 다중공선성 독립 변수X는 종속변수 Y하고만 상관 관계가 있어야 하며, 독립 변수 X들끼리 상관 관계가 있어서는 안된다. 독립 변수간 상관 관계를 보이는 것을 다중공선성(Multicollinearity)이라고 한다. 다중공선성이 있으면 부정확한 회귀 결과가 도출될 수 있다. 다중공선성 확인 및 해결방법 포스팅..
1. [회귀분석] 회귀분석 실습(1) - Statsmodel분석/데이터 스케일링(Python) : ysyblog.tistory.com/119 2. [회귀분석] 회귀분석 실습(2) - 잔차분석 (Python) : ysyblog.tistory.com/120 해당 포스팅은 위 포스팅에 이어 진행됩니다. 변수선택법 변수선택법은 최적의 회귀방정식 선택에 도움을 주는 방법론이다 변수선택법에는 전진선택법, 후진제거법, 단계선택법이 있다. 파이썬에서는 OLS결과를 보면서 수작업으로 변수를 조정해야하지만, R에서는 step()라는 함수를 활용하여 변수선택법을 쉽게 할 수 있다. 최적회귀방정식의 선택 설명변수 선택 y에 영향을 미칠 수 있는 모든 설명변수 x들을 y의 값을 예측하는데 사용 데이터에 설명변수 x들의 수가 많..
1. [회귀분석] 회귀분석 실습(1) - Statsmodel분석/데이터 스케일링(Python) : ysyblog.tistory.com/119 해당 포스팅은 위 포스팅에 이어 진행됩니다. 잔차분석 잔차분석은 회귀모형에 대한 가정(정규성, 등분산성, 독립성)을 충족하는지에 대한 검정, 이상치가 개입하는지에 대한 검정을 하는 절차 import pandas as pd from statsmodels.formula.api import ols df = pd.read_csv('cars.csv') res = ols('dist ~ speed', data=df).fit() 모형의 선형성 예측값(fitted)과 잔차(residual)를 비교 모든 예측값에서 가운데 점선에 맞추어 잔차가 비슷하게 있어야 한다. 빨간 실선은 잔차..
Statsmodel을 활용한 회귀분석 statsmodels 패키지에서는 OLS 클래스를 사용하여 선형 회귀분석을 실시한다 독립변수와 종속변수가 모두 포함된 데이터프레임이 생성되며, 상수항 결합은 하지 않아도 된다. from_formula 메서드의 인수로 종속변수와 독립변수를 지정하는 formula 문자열을 넣는다. data 인수로는 독립변수와 종속변수가 모두 포함된 데이터프레임을 넣는다. EX) model = OLS.from_formula(formula, data=df) 또한 독립변수만 있는 데이터프레임 X와 종속변수만 있는 데이터프레임 y를 인수로 넣어서 만들 수도 있다. 이 때는 독립변수만 있는 데이터프레임 X가 상수항을 가지고 있어야 한다. EX) model = OLS(dfy, dfX) fit 메서..
탐색적 요인 분석 요인 분석 (FA)은 관찰 된 변수 집합에서 영향력있는 기본 요인 또는 잠재 변수를 검색하는 데 사용되는 탐색적 데이터 분석 방법이다. 변수 수를 줄여 데이터 해석에 도움을 준다. 모든 변수에서 최대 공분산을 추출하여 공통 점수에 넣는다. 요인 분석은 시장 조사, 광고, 심리학, 금융 및 운영 연구에 널리 사용됨. 예를 들어, 시장 조사원은 요인 분석을 사용하여 가격에 민감한 고객을 식별하고 소비자 선택에 영향을 미치는 브랜드 기능을 식별하며 유통 채널에 대한 채널 선택 기준을 이해하는 데 도움을 준다. 탐색적 요인 분석의 전제조건 등간척도, 정규분포, 관찰치가 상호독립적이며 분산이 동일해야한다. 모상관 행렬이 단위 행렬이라는 가설이 기각되어야함(KMO / Bartleet의 검정) 최초..
주성분분석 고차원의 데이터를 저차원의 데이터로 환원시키는 기법 데이터를 어떤 기준을 바탕으로 변환을 하고, 그 변환으로 인해 '주성분'이 추출된다. 따라서 추출된 주성분은 원래 가지고 있는 데이터와 다르다. 변환된 데이터이다. 따라서 변수의 의미가 중요한 경우에는 PCA를 사용하면 안 된다. 왜냐면, PCA는 데이터에 변환을 가하는 것이기 때문이다. PCA는 탐색적 분석이다. 즉, 변인을 탐색해서 변환을 통해 주성분을 결정하는 방법이다. PCA의 본질은 차원 축소이다. 차원이 축소됐다는 것은 원본 데이터가 아니라 변환(projection) 된 데이터, 즉 주성분을 이용해 분석 혹은 모델링을 진행하겠다는 것이다. import pandas as pd url = "https://archive.ics.uci.e..
상관분석 import seaborn as sns titanic = sns.load_dataset("titanic") titanic=titanic.iloc[:,0:7] titanic.tail() titanic.dropna(axis=0, inplace=True) titanic.corr(method='pearson') titanic.corr(method='kendall') titanic.corr(method='spearman') corrr = titanic.corr(method='pearson') sns.pairplot(data=corrr) plt.show() # survived와 pclass의 피어슨 상관분석하고 검정결과 해석 import scipy.stats as stats # 피어슨 상관계수 검정 cor..
분산분석(ANOVA) 두개이상 집단들의 평균간 차이에 대한 통계적 유의성을 검정 사후 검정 : 분산분석 후 어떤 집단이 유의미한 차이를 가지고 있는지 확인 귀무가설 : 집단들 사이의 평균은 같음 대립가설 : 집단들 사이의 평균은 다름 일원배치 분산분석 하나의 범주형 변수의 영향을 알아보기 위해 사용 모집단의 수는 제한 없으며, 표본의 수는 달라도 됨(3개 이상 집단간 차이가 있는지 검증) 가정 : 각 집단 측정치는 서로 독립이며, 정규분포를 따름, 분산이 같음(등분산 가정) F검정 통계량 사용 귀무가설 : k집단간 모평균에는 차이가 없음 대립가설 : k집단간 모평균에는 차이가 있음 from sklearn.datasets import load_iris iris = load_iris() df = pd.Dat..