반응형

분류 전체보기 339

[인과추론] 인과추론의 단계(1) (회귀분석 / 이중차분법 / 매칭)

잠재적 결과 관점에서 인과추론 문제 : 비교 가능한 대상 찾기 (ceteris paribus) 인과 추론을 위한 핵심 질문 (사회적 거리두기 정책의 효과) 사회적 거리두기 정책을 시행한 국가와 그렇지 않은 국가는 사회적 거리두기 정책여부를 제외한 코로나 19감염에 영향을 미칠 수 있는 모든 요인에서 비교 가능한 대상인가 (선택편향) 사회적 거리두기 정책 시행전후로 함께 발생한 다른 정책이나 외부 교란원인은 없는가 (선택편향) 사회적 거리두기 정책과 코로나19 확진자/사망자 수 사이에 역인과관계는 존재하지 않는가 (역인과관계) 인과관계에 관한 근거의 단계 회귀분석(Regression Analysis) 통제 변수들의 영향을 고려한 상관관계 분석을 도와주는 통계적인 분석 기법 인과관계를 분석하는 툴은 아님 회..

[인과추론] 인과관계를 알아내기 위한 분석틀

인과관계를 이해하는 틀 잠재적 결과 프레임 워크 인과 효과 = (원인이 있을 때의 결과) - (원인이 없었다면 있었을 잠재적 결과) 잠재적인 결과는 “관찰되지 못한”가상의 결과이다 EX) 비료의 사용과 농산물 생산량의 관계에서 인과관계를 분석할때 비료를 사용한 생산량은 100인데, 만약 연초에 비료를 쓰지 않았다면 생산량은 어땠을까 인과추론의 근본적 문제 잠재적인 결과는 "관찰되지 못한" 가상의 결과 (Fundamental Problem fo Causal Inference) EX) 독서와 성적의 관계 보통 사람들이 생각하는 인과관계 : (책을 읽은 우리 아이의 성적) - (책을 읽지 않은 우리 아이의 성적) 실제 현실에 나타난 결과 : (책을 읽은 엄마 친구 아들 성적) - (책을 읽지 않은 우리 아이 ..

[인과추론] 인과관계란

상관관계와 인과관계 상관관계는 인과관계를 의미하지 않는다 상관관계 : 함께 일어나는 변화 인과관계 : 원인과 결과 EX) 검색광고와 수익율과의 관계 검색광고와 수익률 간의 높은 양의 상관관계는 투자수익률이 높게 책정(1600%~4000%) 내생성을 고려한 인과관계를 기준으로 하면 투자수익률은 -20%~-60%로 감소 EX) 사업 다각화는 유효한 사업전략인가 다각화와 기업가치 간의 음의 관계가 있다라는 연구 발표 계량 경제적 방법론을 통해 다각화 전략에 대한 선택편향을 고려한 결과 , 다각화는 기업가치과 유의한 관계가 없거나 양의 관계가 없다. 선택편향 : 다각화를 한 기업과 하지 않은 기업이 큰 관계가 없다. 다각화를 해서 기업가치가 낮아지는 것이 아닌, 기업가치가 낮아진 기업이 다각화를 해서 다닥화와 ..

[Python] DataFrame의 groupby에 매소드 적용 (agg 활용)

DataFrame의 groupby에 매소드 적용python의 Groupby 함수를 활용하는 다양한 방법을 알아보겠습니다.데이터는 아래 kaggle 링크의 event.csv 데이터를 활용하였습니다.https://www.kaggle.com/datasets/mkechinov/ecommerce-events-history-in-electronics-store 데이터 불러오기import pandas as pddf = pd.read_csv("events.csv")df["event_time"] = pd.to_datetime(df["event_time"])df["date"] = df["event_time"].dt.strftime('%Y-%m-%d')groupby에 함수를 적용하는 방법1. groupby에 메소드를 바로 ..

[시계열분석] 다변량 선형 확률과정 - 그랜져 인과관계 (Granger Causality)

인과관계와 상관관계 Spurious Regression X와 Y가 관련(인과관계)이 없거나 논리적인 스토리가 없음에도 단순하게 상관성이 높다라고 잘못 결론을 내리는 것 Post Hoc Fallacy X 다음에 Y가 일어났으므로 X가 Y의 원인이라고 판단하는, 즉 시간순서가 인과관계를 담보할 것이라는 오류 징크스 : 머리를 염색했더니 시험점수가 100점이 나오더라고 믿는 경우 오버피팅(Overfitting) : 인과관계가 있는 데이터에서 샘플(Train) 데이터에 치우쳐버린 모델 Post Hoc Fallacy : 아무런 인과관계가 없는(상관관계는 높더라도) 데이터로 만든 모델 Granger Causality 어떤 현상의 예측에 있어 다른 정보를 이용하는 것이 얼마나 유의미한지 나타내는 척도 추론불가한 문제..

[시계열분석] 다변량 선형 확률과정 - 거시경제 VAR 모형화

https://ysyblog.tistory.com/298 [시계열분석] 다변량 선형 확률과정 - VAR & IRP (백터자기회귀과정, 임펄스응답함수) 다변량 선형 확률과정 필요성 단변량 시계열(Simple/Multiple포함)은 종속변수(Y_t)가 독립변수들에만! 영향을 받는다는 큰 가정 존재 현실적으론 종속변수와 독립변수는 상호 영향을 주고받음 예시: ysyblog.tistory.com 위 포스팅에 이어 진행됩니다. 데이터 로딩 및 시각화 데이터 설명 : https://www.statsmodels.org/0.6.1/datasets/generated/macrodata.html import pandas as pd import numpy as np import matplotlib.pyplot as plt i..

[시계열분석] 다변량 선형 확률과정 - VAR & IRP (백터자기회귀과정, 임펄스응답함수)

다변량 선형 확률과정 필요성 단변량 시계열(Simple/Multiple포함)은 종속변수(Y_t)가 독립변수들에만! 영향을 받는다는 큰 가정 존재 현실적으론 종속변수와 독립변수는 상호 영향을 주고받음 예시: 개인 소득과 지출 중 어떤게 Y로 적합한가?라는 질문은 왜 하지 않는가? => 2차원(소득과 지출 모두를 종속변수) 과거 1시점까지만을 고려하는 백터자기회귀 알고리즘 지금의 소득은 어제의 소득과 어제의 지출에도 영향을 받는다. 오늘의 지출은 어제의 소득과 어제의 지출에 모두 영향을 받는다. 벡터자기회귀 모형(Vector Autoregressive Model) 1) VAR 알고리즘 단변량 시계열과 같이 평균 벡터와 공분산 벡터가 시차에만 의존하고 각각의 절대위치에 독립적이인 정상성(Stationary) ..

[시계열 분석] 정확도를 높이기 위한 Prophet 파라미터 활용

정확도를 높이기 위한 Prophet 파라미터 활용아래 포스팅에서 이어 진행됩니다https://ysyblog.tistory.com/287 [시계열 분석] ProphetProphet 알고리즘 Paper: https://peerj.com/preprints/3190.pdf Quick Start: https://facebook.github.io/prophet/docs/quick_start.html 기본가정 자동화 된 기술은 상황에 맞게 튜닝하기 어렵고 경험적 지식을..ysyblog.tistory.com Growth 파라미터 1. Saturating(데이터의 상한과 하한 설정)로지스틱 설정하여 비선형적 추정Y 데이터의 상한과 하한을 반드시 설정해 주어야함. (cap, floor)파라미터에서 growth = "sat..

[Python] 파이썬과 구글 드라이브 연동하고 파일 업로드/다운로드 하기 (Google Drive)

이번 포스팅에서는 파이썬과 구글드라이브를 연동하고 파일을 업로드/다운로드 하는 방법을 알아보겠습니다 사전작업 1. 아래링크로 들어갑니다. https://console.cloud.google.com/ 2. 새 프로젝트를 만듭니다 프로젝트 만들기를 클릭합니다. 프로젝트 이름을 입력하고 만들기를 누릅니다. 3. 사용자 인증정보에서 OAuth 동의 화면 구성 왼쪽 상단의 메뉴 아이콘을 누른 다음 API 및 서비스 탭의 사용자 인증 정보를 클릭합니다. 사용자 인증정보에서 동의 화면 구성을 클릭합니다. User Type를 외부를 클릭하고 만들기를 누릅니다 이후 앱정보에서 앱이름을 클릭하고, 사용자의 이메일을 입력하고 개발자 연락처 이메일도 입력하고 저장 후 계속을 누릅니다. 아래 화면이 나올 때 까지 "저장 후 계..

[빅데이터분석기사] 빅데이터분석기사 2회 합격 후기(필기, 실기 후기 포함)

빅데이터분석기사 2회 합격 후기(필기, 실기 후기 포함)시험보고 나서 포스팅해야지하고 대략적으로 정리만 해두었는데 제가 좀 게을러서.. 이제야 후기를 남겨봅니다. 코로나로 1회 시험이 취소되어서 사실상 2회가 1회인 시험이었습니다.사실 빅분기의 상위 버전인 ADP 자격증을 보유하고 있기에 빅분기 자격증은 딱히 필요가 없긴했으나, 따면 좋겠지.. 하는 마음으로 시험을 신청했습니다. 필기이미 ADSP, ADP 필기를 보면서 대충은 풀수있겠지라고 생각하여 별 공부를 하지 않고 시험장에 갔습니다.아래 책이 좋다고 하여 구매하긴 했지만 시간이 없어 많이 공부하지 못했습니다.https://link.coupang.com/a/1oBhw 2023 수제비 빅데이터분석기사 필기 1권+2권 합본세트:2021년 2회~~2022..

반응형