반응형

python 39

[회귀분석] 회귀분석 실습(4) - 다중공선성 (Python)

1. [회귀분석] 회귀분석 실습(1) - Statsmodel분석/데이터 스케일링(Python) : ysyblog.tistory.com/119 2. [회귀분석] 회귀분석 실습(2) - 잔차분석 (Python) : ysyblog.tistory.com/120 3. [회귀분석] 회귀분석 실습(3) - 변수선택법 (R) : ysyblog.tistory.com/121 해당 포스팅은 위 포스팅에 이어 진행됩니다. 다중공선성 독립 변수X는 종속변수 Y하고만 상관 관계가 있어야 하며, 독립 변수 X들끼리 상관 관계가 있어서는 안된다. 독립 변수간 상관 관계를 보이는 것을 다중공선성(Multicollinearity)이라고 한다. 다중공선성이 있으면 부정확한 회귀 결과가 도출될 수 있다. 다중공선성 확인 및 해결방법 포스팅..

[Matching][매칭] PSM(Propensity Score Matching) (PSMPY)

매칭 (Matching) 실험집단과 통제집단 간의 특성이 유사하도록 인위적으로 매칭 장점 : 통제변수의 역할과 유사하지만, 관찰가능한 통제 변수를 기반으로 분석 대상을 균일하게 조정함으로써 그 외 관찰되지 않은 요인들도 유사할 것으로 가정 즉 통제변수는 딱 지정하는 변수만 유사하게 만들 수 있지만, 매칭은 지정하는 변수만 유사하게 만드는 것이 아닌 집단 자체를 유사하게 만듬 단점 : 분석대상의 숫자가 작아질 수 있음, 외적 타당성에 더 취약해짐 대표적 매칭 방법론 모든 통제변수에 대해 값이 적당히 유사한 데이터만 매칭 : Coarsened Exact Matching(CEM) 모든 통제변수들에 기반하여 실험집단이 될 경향성을 계산 후, 경향성이 유사한 데이터만 매칭 : Propensity Score Mat..

[Python] DataFrame의 groupby에 매소드 적용 (agg 활용)

python의 Groupby 함수를 활용하는 다양한 방법을 알아보겠습니다. 데이터는 아래 kaggle 링크의 event.csv 데이터를 활용하였습니다. https://www.kaggle.com/datasets/mkechinov/ecommerce-events-history-in-electronics-store 데이터 불러오기 import pandas as pd df = pd.read_csv("events.csv") df["event_time"] = pd.to_datetime(df["event_time"]) df["date"] = df["event_time"].dt.strftime('%Y-%m-%d') groupby에 함수를 적용하는 방법 1. groupby에 메소드를 바로 적용하는 방법 df.groupby..

[시계열 분석] 정확도를 높이기 위한 Prophet 파라미터 활용

아래 포스팅에서 이어 진행됩니다 https://ysyblog.tistory.com/287 [시계열 분석] Prophet Prophet 알고리즘 Paper: https://peerj.com/preprints/3190.pdf Quick Start: https://facebook.github.io/prophet/docs/quick_start.html 기본가정 자동화 된 기술은 상황에 맞게 튜닝하기 어렵고 경험적 지식을.. ysyblog.tistory.com Growth 파라미터 1. Saturating(데이터의 상한과 하한 설정) 로지스틱 설정하여 비선형적 추정 Y 데이터의 상한과 하한을 반드시 설정해 주어야함. (cap, floor) 파라미터에서 growth = "saturating" 으로 설정 Test 데..

[Python] 파이썬과 구글 드라이브 연동하고 파일 업로드/다운로드 하기 (Google Drive)

이번 포스팅에서는 파이썬과 구글드라이브를 연동하고 파일을 업로드/다운로드 하는 방법을 알아보겠습니다 사전작업 1. 아래링크로 들어갑니다. https://console.cloud.google.com/ 2. 새 프로젝트를 만듭니다 프로젝트 만들기를 클릭합니다. 프로젝트 이름을 입력하고 만들기를 누릅니다. 3. 사용자 인증정보에서 OAuth 동의 화면 구성 왼쪽 상단의 메뉴 아이콘을 누른 다음 API 및 서비스 탭의 사용자 인증 정보를 클릭합니다. 사용자 인증정보에서 동의 화면 구성을 클릭합니다. User Type를 외부를 클릭하고 만들기를 누릅니다 이후 앱정보에서 앱이름을 클릭하고, 사용자의 이메일을 입력하고 개발자 연락처 이메일도 입력하고 저장 후 계속을 누릅니다. 아래 화면이 나올 때 까지 "저장 후 계..

[Python] 파이썬으로 파일 첨부하여 메일 보내기(Gmail)(SMTP / MIME)

이번 포스팅에서는 파이썬으로 구글메일 API를 활용하여 메일을 보내고 파일까지 첨부하는 것을 알아보겠습니다. 권한설정 1. 보안 설정 변경 보안 -> 엑세스 사용 설정 -> 보안 수준이 낮은 앱 허용(사용)으로 바꾸기 2. GMail IMAP값 변경 Gmail -> 설정(톱니바퀴) -> 모든 설정보기 클릭 전달 및 POP/IMAP -> IMAP 사용안함을 사용으로 바꾸고 -> 저장 개념설명 SMTP(Simple Mail Transfer Protocol) : 인터넷에서 메일을 주고 받기 위해 이용하는 프로토콜(메일 서버간 전송 규약) POP3 : 받는 메일, 서버에 메일을 저장해 두지 않음 IMAP : 받는 메일, 서버에 메일을 저장해두어서 언제든 원하는 메일 열람 가능 MIME : 이메일을 보낼 때 형식..

[Python] 데이터를 MYSQL DB에 적재/ 업데이트 하는 방법 (MYSQL WORKBENCH / Upsert / to_sql)

목적 파이썬으로 데이터를 MYSQL의 DB에 적재하는 여러가지 방법을 알아봅니다. 데이터를 한번에 밀어넣는 방법과, 데이터를 업데이트 시켜주는 upsert 방법을 소개합니다 활용데이터 캐글의 bike 데이터를 활용 https://www.kaggle.com/c/bike-sharing-demand/data?select=train.csv 사전 작업 1: MYSQL WORKBENCH DB 연결 workbench에서 local DB를 연결합니다 connection name를 지정합니다 hostname : 로컬로 연결하려면 로컬 ip인 "127.0.0.1"(자동입력 되어있음), AWS RDS로 연결하려면 RDS의 hostname을 입력합니다 username : 기본은 "root" 입니다 password : "Sto..

[Python] 다양한 함수를 활용하여 파생변수(새로운 컬럼) 만들기(apply, map, lambda)

데이터프레임에 메소드를 적용하여 새로운 컬럼을 만드는 방법을 알아보겠습니다. 물론 반복문을 사용해서 데이터프레임에서 한줄씩 읽어와서 처리한 다음 컬럼을 만드는 방법도 있지만 이러한 방법은 시간이 오래걸린다는 단점이 있습니다. 따라서 함수를 활용해서 데이터프레임을 가공하는 여러가지 방법을 알아보겠습니다. 데이터프레임은 아래 예시 데이터를 활용하였습니다. # 사전 세팅코드 import pandas as pd data = pd.read_csv("data.csv") 하나의 컬럼만 활용하여 하나의 새로운 컬럼을 만들때 apply나 map 함수 활용 - 예시 : referrer에서 media(ex. naver, daum)을 뽑아내는 메소드를 적용시켜보겠습니다. # 적용 함수 def split_data(referre..

[Python][파이썬][프로그래머스] 외벽점검 (2020 KAKAO BLIND RECRUITMENT)

programmers.co.kr/learn/courses/30/lessons/60062 코딩테스트 연습 - 외벽 점검 레스토랑을 운영하고 있는 스카피는 레스토랑 내부가 너무 낡아 친구들과 함께 직접 리모델링 하기로 했습니다. 레스토랑이 있는 곳은 스노우타운으로 매우 추운 지역이어서 내부 공사를 하는 programmers.co.kr 문제 설명 레스토랑을 운영하고 있는스카피는 레스토랑 내부가 너무 낡아 친구들과 함께 직접 리모델링 하기로 했습니다. 레스토랑이 있는 곳은 스노우타운으로 매우 추운 지역이어서 내부 공사를 하는 도중에 주기적으로 외벽의 상태를 점검해야 할 필요가 있습니다. 레스토랑의 구조는완전히 동그란 모양이고외벽의 총 둘레는 n미터이며, 외벽의 몇몇 지점은 추위가 심할 경우 손상될 수도 있는취약..

[Python][파이썬][프로그래머스] 기둥과 보 설치 (2020 KAKAO BLIND RECRUITMENT)

문제 설명 빙하가 깨지면서 스노우타운에 떠내려 온 죠르디는 인생 2막을 위해 주택 건축사업에 뛰어들기로 결심하였습니다. 죠르디는 기둥과 보를 이용하여 벽면 구조물을 자동으로 세우는 로봇을 개발할 계획인데, 그에 앞서 로봇의 동작을 시뮬레이션 할 수 있는 프로그램을 만들고 있습니다. 프로그램은 2차원 가상 벽면에 기둥과 보를 이용한 구조물을 설치할 수 있는데, 기둥과 보는 길이가 1인 선분으로 표현되며 다음과 같은 규칙을 가지고 있습니다. 기둥은 바닥 위에 있거나 보의 한쪽 끝 부분 위에 있거나, 또는 다른 기둥 위에 있어야 합니다. 보는 한쪽 끝 부분이 기둥 위에 있거나, 또는 양쪽 끝 부분이 다른 보와 동시에 연결되어 있어야 합니다. 단, 바닥은 벽면의 맨 아래 지면을 말합니다. 2차원 벽면은 n x ..

반응형