반응형

Data Analysis & ML 109

[시계열분석] R을 활용한 시계열 분석(정상성 판단)

시계열 분석시간의 흐름에 따라 관찰된 값들을 시계열 자료라 함시계열 분석은 시간을 고려한 회귀분석이다.정상성시간에 따라 확률적인 성분이 변하지 않는다는 가정정상성이란 시계열 분석에 기초가 되는 개념이다공분산은 단지 시차에만 의존하고 실제 어느 시점 t,s에는 의존하지 않는다.따라서 비정상 시계열은 시간대에 따라 데이터가 변하고 추세와 시간대를 갖는다.시계열은 series 데이터 형태로 불러와야 한다.정상성 시계열 자료로 변환비정상성 시계열 데이터를 정상성 시계열로 바꾸는 방법은 두 가지가 있다.(1) 차분(diff) : 평균이 일정하지 않은 시계열을 정상화하는 방법으로, 현 시점 자료에서 전 시점 자료를 빼는 것일반차분(regular difference) : 바로 전 시점의 자료를 빼는 방법계절차분(se..

[통계분석] 탐색적 요인분석(EFA)

탐색적 요인분석(Exploratory factor analysis)탐색적 요인분석이란요인 분석 (FA)은 관찰 된 변수 집합에서 영향력있는 기본 요인 또는 잠재 변수를 검색하는 데 사용되는 탐색적 데이터 분석 방법이다.변수 수를 줄여 데이터 해석에 도움을 준다.모든 변수에서 최대 공분산을 추출하여 공통 점수에 넣는다.요인 분석은 시장 조사, 광고, 심리학, 금융 및 운영 연구에 널리 사용됨.예를 들어, 시장 조사원은 요인 분석을 사용하여 가격에 민감한 고객을 식별하고 소비자 선택에 영향을 미치는 브랜드 기능을 식별하며 유통 채널에 대한 채널 선택 기준을 이해하는 데 도움을 준다.탐색적 요인 분석의 전제조건등간척도, 정규분포, 관찰치가 상호독립적이며 분산이 동일해야한다.모상관 행렬이 단위 행렬이라는 가설이..

[통계분석] PCA(주성분분석)

PCA(주성분분석)고차원의 데이터를 저차원의 데이터로 환원시키는 기법데이터를 어떤 기준을 바탕으로 변환을 하고, 그 변환으로 인해 '주성분'이 추출된다.따라서 추출된 주성분은 원래 가지고 있는 데이터와 다르다. 변환된 데이터이다.따라서 변수의 의미가 중요한 경우에는 PCA를 사용하면 안 된다. 왜냐면, PCA는 데이터에 변환을 가하는 것이기 때문이다.PCA는 탐색적 분석이다. 즉, 변인을 탐색해서 변환을 통해 주성분을 결정하는 방법이다.PCA의 본질은 차원 축소이다. 차원이 축소됐다는 것은 원본 데이터가 아니라 변환(projection) 된 데이터, 즉 주성분을 이용해 분석 혹은 모델링을 진행하겠다는 것이다.import pandas as pdurl = "https://archive.ics.uci.edu/..

[통계분석] 상관분석 (피어슨, 스피어만, 켄달타우)

상관분석해당 포스팅에서는 Python을 이용하여 상관분석을 하는 방법을 알아봅니다.상관계수에 대한 설명은 아래 포스팅 참고 바랍니다https://ysyblog.tistory.com/403 [기초통계학] 산포도와 상관계수, 그리고 상관관계산포도와 상관계수(상관관계)산포도 (Scatter plot)두 변수 사이의 관계를 살펴보기 위해 산포도를 이용한다. 설명변수는 x로 표기하고 가로축에 표시 피설명변수는 y로 표기하고 세로축에 표시설ysyblog.tistory.com데이터 세팅import seaborn as snstitanic = sns.load_dataset("titanic")titanic=titanic.iloc[:,0:7]titanic.tail()titanic.dropna(axis=0, inplace=T..

[통계분석] 분산분석(ANOVA), 이항검정

분산분석(ANOVA)두개이상 집단들의 평균간 차이에 대한 통계적 유의성을 검정사후 검정 : 분산분석 후 어떤 집단이 유의미한 차이를 가지고 있는지 확인귀무가설 : 집단들 사이의 평균은 같음대립가설 : 집단들 사이의 평균은 다름일원배치 분산분석하나의 범주형 변수의 영향을 알아보기 위해 사용모집단의 수는 제한 없으며, 표본의 수는 달라도 됨(3개 이상 집단간 차이가 있는지 검증)가정 : 각 집단 측정치는 서로 독립이며, 정규분포를 따름, 분산이 같음(등분산 가정)F검정 통계량 사용귀무가설 : k집단간 모평균에는 차이가 없음대립가설 : k집단간 모평균에는 차이가 있음from sklearn.datasets import load_irisiris = load_iris()df = pd.DataFrame(iris.da..

[통계분석] 교차분석(카이제곱 검정)

교차분석(카이제곱 검정)범주형 자료인 두변수 간의 관계를 알아보기 위해 실시적합성, 독립성, 동질성검정에 사용하며, 카이제곱 검정 통계량을 이용교차분할표교차분할표에서 행을 이루는 변수를 행변수, 열을 이루는 변수를 열변수라 하며, 행 및 열의 개수는 각 변수의 범주수를 나타낸다.두 변수의 각 범주가 만나는 곳을 셀이라 하며, 셀에 있는 관찰값들은 도수(개체수)이다.셀에는 도수와 함께 비율을 표시하기도 한다. 각 행의 합계 및 각 열의 합계를 주변합이라 하고, 전체 합계는 총합이라고 한다.교차분할표에서는 카이제곱 검정에 의해 독립적인지(관계가 없는지)를 검정하며, 이를 독립성 검정이라고 한다. 일원 카이제곱검정관찰 도수가 기대 도수와 일치하는지 검정하는 적합도 검정이 여기에 속함카이제곱 검정에 의해 표현형..

[통계분석] 표본추출과 T-Test

해당 포스팅에서는 Python을 활용하여 표본을 추출하고 T-Test를 진행합니다.표본추출import pandas as pdimport numpy as npfrom sklearn.datasets import load_irisiris = load_iris()df = pd.DataFrame(data=iris.data, columns=iris.feature_names)df['target'] = iris.target층화임의추출모집단이 이일적인 몇개의 계층으로 이루어져있을때 모든계층으로부터 원소를 임읠 추출하여 각 계층을 고루 대표할 수 있도록 랜덤하게 표본을 추출하는 방법from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y..

[Deep Learning][딥러닝] CNN_MNIST분류 / 모델저장/ FunctionalAPI

Convolutional Neural Network 구현 import matplotlib.pyplot as plt # 학습결과 그래프 함수 # loss 그래프 def loss_plot(history): # plt.figure(figsize=(10,7)) plt.plot(history.history['loss'], label='Train loss') plt.plot(history.history['val_loss'], label='Validation loss') plt.title('Loss') plt.xlabel('Epoch') plt.ylabel('Loss') plt.legend() plt.show() # accuracy 그래프 def accuracy_plot(history): # plt.figure(fi..

[Deep Learning][딥러닝] CNN 개요

CNN - 합성곱 신경망(Convolutional Neural Network) DCNN (Deep Convolutional Neural Network) Overview 컴퓨터 비전(이미지, 동영상관련 처리) 에서 사용되는 딥러닝 모델 특히 이미지 분류에 가장 많이 사용된다. 일반적으로 Convolution layer, Pooling Layer, Fully-connected layer 로 구성되어 있다. Convolution layer와 pooling layer: Feature Extraction 담당 Fully-connected layer : 분류 담당 CNN 응용 이미지 분류 64*64 이미지를 입력하였을 때 고양이인지 여부 판단 2. Object detection(객체 찾기) 이미지 안의 물체를 탐색..

[Deep Learning][딥러닝] DNN 성능개선

Deep Neural Networks 모델 성능 개선 과대적합과(Overfitting) 과소적합(underfitting) 최적화(Optimization)와 일반화(generalization) 최적화(Optimization): train data에서 최고의 성능을 얻으려고 모델을 조정하는 과정 (옵티마이저가 한다.) 일반화(Generalization): 훈련된 모델이 처음 보는 데이터에서 얼마나 잘 수행되는지를 의미 과소적합(Underfitting)의 발생 epoch가 진행될 수록 train loss와 test loss(validation loss)가 모두 안 좋음 핵심 : train loss도 안좋고 test loss도 안 좋다. 모델이 너무 단순하면 train loss가 줄어들 지 않는다. 그런 경우 ..

반응형