반응형

분류 전체보기 334

[기초통계학] 독립(Independence)과 조건부확률(Conditional Probability)(2) (전체 확률의 법칙, 수형도를 통한 조건부확률의 이해)

전체 확률의 법칙 A1, A2, A3, A4: 전체인 S를 분할한 것 (공간을 서로소 집합으로 분할) 주어진 자료로 문제를 잘 '분할'하여 접근하기 S를 $A_1, A_2, ... A_n$ 의 서로소인 분할들로 나누어 놓았다고 했을 때, $P(B) = P(B \cap A_1) + P(B \cap A_2) + ... + P(B \cap A_n)$ 가 성립하며, 이는 곧 $ = P(B|A_1)P(A_1) + P(B|A_2)P(A_2) +... + P(B|A_n)P(A_n)$ 로도 다시 쓰일 수 있다. 이를 전체 확률의 법칙(Law of Total Probability)라고 한다. 조건부 확률과 예시 조건부 독립: 'A와 B는 조건 C 하에서 독립이다' 정의) $P(A \cap B|C) = P(A|C)P(B|..

[수학 리부트] 삼각함수

삼각함수 일반각과 호도법 일반각 : $(360^\circ \times n) + \theta (n \in Z) $ 호도법 : 호의 길이로 각도를 표현하는 방법. 호도법으로 표현하는 각의 크기를 라디안(radian, 기호로 rad 라고 한다.) 라디안 : 각에 대응하는 호의 길이를 원의 반지름으로 나눈 것. $360^\circ = \frac{2πr}{r} = 2π (rad)$ 라디안과 도 단위 사이에는 다음 관계가 성립한다 $180^\circ = π (rad)$ => $1^\circ = \frac{π}{180} (rad)$ => $1(rad) = \frac{180}{π} \approx 57.3^\circ$ 호도법에서의 각의 크기 : $2nπ + \theta (n \in Z) $ 각도법 대신 호도법을 쓰는 이..

[기초통계학] 독립(Independence)과 조건부확률(Conditional Probability) (1)

독립 (Independence) 정의) $P(A \cap B) = P(A)P(B)$이 성립할 때, 사건 A와 B는 독립이다. 주의하기: 서로소(disjoint) 와 구별하기 – A와 B가 서로소인 사건이라면, A가 발생했을 때 B는 발생할 수 없다. (한편, A와 B가 독립이라면, 사건 A의 발생은 B의 발생여부에 대한 그 어떤 영향도 끼치지 않음) $P(A \cap B) = P(A)P(B)$ $P(B \cap C) = P(B)P(C)$ $P(C \cap A) = P(C)P(A)$ $P(A \cap B \cap C) = P(A)P(B)P(C)$ 가 모두 성립할 때, 사건 A, B, C는 독립이다. → 쌍으로 독립(pairwise independence)과 전체 독립 모두 확인해야 A, B, C의 독립을 ..

[기초통계학] 확률의 non-naïve한 정의의 공리, 확률의 특성, 포함배제의 원리

Non-naïve definition of probability 모든 경우의 확률이 각각 다른 경우 확률공간(Probability space) : S와 P로 구성 S : 표본공간 (어떤 사건 A는 S의 부분집합) P : 함수 (어떤 사건 A를 입력으로 하는 함수) 공리 아래 세 가지 공리로부터 대부분의 식을 유도할 수 있음 공집합에 대한 확률은 0이다 (불가능하기 때문에) $P(S) = 1P(ϕ)=0$ 전체 표본 공간의 확률(적어도 사건 A가 발생할 확률)은 1이다. P(S)=1 합사건의 확률은 모든 확률의 합과 같다. (A1, A2.... 가 모두 서로소 일 경우만) $P(\bigcup_{n=1} ^\infty A_n) = \displaystyle\sum_{n=1} ^\infty P(A_n)$ $A_i..

[기초통계학] 확률의 기본 개념(표본공간, 곱의 법칙, 이항정리), 표본추출정리, 확률의 공리

확률론의 활용영역 유전학, 물리학, 계랑경제학, 금융, 역사학, 정치 인문학, 사회과학계에서도 중요도와 활용이 늘어나고 있음 도박과 게임 - 통계에서 여러 번 연구된 주제이다(페르마, 파스칼) 인생 전반: (수학이 활실성에 대한 학문이라면,) 확률은 불확실성(uncertainty)을 계량화하는 것을 가능하게 해 준다. 확률의 기본 개념 표본공간(sample space): 시행에서 발생 가능한 모든 경우의 집합 사건(event): 표본공간의 부분집합 확률의 naïve 한 정의 $P(A) = \frac{(사건 A가 발생하는 경우의 수)}{(발생 가능한 모든 경우의 수)}$ 분모는 표본공간과 같음 두개의 동전을 던졌을 때 둘다 앞면이 나올 확률 : $P(A) = \frac{1}{4}$ 가정 : 모든 경우가 같..

[SparkML] Spark ML Pipeline (DataFrame, Transformer, Estimator, Parameter)

모델 빌딩과 관련된 문제들 트레이닝 셋의 관리가 안됨 모델 훈련 방법이 기록이 안됨 어떤 트레이닝 셋을 사용했는지? 어떤 피쳐들을 사용했는지? 하이퍼 파라미터는 무엇을 사용했는지? 모델 훈련에 많은 시간 소요 모델 훈련이 자동화가 안된 경우 매번 각 스텝들을 노트북 등에서 일일히 수행 에러가 발생할 여지가 많음 (특정 스텝을 까먹거나 조금 다른 방식 적용) ML Pipeline 데이터 과학자가 머신러닝 개발과 테스트를 쉽게 해주는 기능 (데이터 프레임 기반) 머신러닝 알고리즘에 관계없이 일관된 형태의 API를 사용하여 모델링이 가능 ML 모델개발과 테스트를 반복가능해줌 4개 요소로 구성 : DataFrame,Transformer, Estimator, Parameter 모델 훈련 방법이 기록이 안되는 문제..

[SparkML] Spark ML 피쳐 변환(문자 카테고리형 데이터 처리, Scaling, Null값 채우기) (StringIndexer, OneHotEncoder) (StandardScaler, MinMaxScaler) (Imputer)

피쳐 추출과 변환 피쳐 값들을 모델 훈련에 적합한 형태로 바꾸는 것을 지칭 파이썬과 다르게 각각의 feature를 모델에 넣는 것이 아닌 feature를 하나의 vector로 묶어서 모델에 넣음 크게 두 가지가 존재: Feature Extractor와 Feature Transformer Feature Transformer https://spark.apache.org/docs/latest/ml-features.html#feature-transformers 피쳐 값들은 숫자 필드이어야함 텍스트 필드(카테고리 값들)를 숫자 필드로 변환해야함 숫자 필드 값의 범위 표준화 숫자 필드라고 해도 가능한 값의 범위를 특정 범위(0부터 1)로 변환해야 함 이를 피쳐 스케일링 (Feature Scaling) 혹은 정규화 ..

[SparkML/Classification] 타이타닉 승객 생존 예측 분류 (Logistic Regression)

타이타닉 승객 생존 예측 다운로드 링크 : https://www.kaggle.com/c/titanic 생존 혹은 비생존을 예측하는 것이라 Binary Classification을 사용 (2개 클래스 분류기) Logistic Regression 사용 AUC (Area Under the Curve)의 값이 중요한 성능 지표가 됨 ▪ True Positive Rate과 False Positive Rate True Positive Rate: 생존한 경우를 얼마나 맞게 예측했나? 흔히 Recall이라고 부르기도함 False Positive Rate: 생존하지 못한 경우를 생존한다고 얼마나 예측했나? 총 892개의 레코드로 구성되며 11개의 피쳐와 레이블 필드(생존여부) 로 구성 2번째 필드(Survived) 바로..

[SparkML/Regression] 보스턴 주택가격 예측 예시 (Linear Regression)

보스턴 주택가격 예측 1970년대 미국 인구조사 서비스 (US Census Service)에서 보스턴 지역의 주택 가격 데이터를 수집한 데이터를 기반으로 모델 빌딩 해당 링크에서 다운로드 : https://www.kaggle.com/datasets/vikrishnan/boston-house-prices 개별 주택가격의 예측이 아니라 지역별 중간 주택가격 예측임 Regression 알고리즘 사용 예정 연속적인 주택가격을 예측이기에 Classification 알고리즘은 사용불가 총 506개의 레코드로 구성되며 13개의 피쳐와 레이블 필드(주택가격) 로 구성 506개 동네의 주택 중간값 데이터임 (개별 주택이 아님에 유의) 14번째 필드가 바로 예측해야하는 중간 주택 가격 Python OLS 회귀분석은 아래 ..

[SparkML] Spark ML이란

Spark ML 이란 머신러닝 관련 다양한 알고리즘, 유틸리티로 구성된 라이브러리 Classification, Regression, Clustering, Collaborative Filtering, Dimensionality Reduction. https://spark.apache.org/docs/latest/ml-classification-regression.html 아직 딥러닝은 지원은 아직 미약 여기에는 RDD 기반과 데이터프레임 기반의 두 버전이 존재 spark.mllib vs. spark.ml spark.mllib가 RDD 기반이고 spark.ml은 데이터프레임 기반 spark.mllib는 RDD위에서 동작하는 이전 라이브러리로 더 이상 업데이트가 안됨 항상 spark.ml을 사용할 것! imp..

반응형