일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- sparkml
- 시계열분석
- ADP실기
- sql
- 파이썬
- pyspark
- 데이터분석
- postgresql
- Machine Learning
- hackerrank
- 통계분석
- python
- 카파도키아
- 튀르키예
- Deep Learning
- 회귀분석
- 딥러닝
- SparkSQL
- 인과추론
- nlp
- 프로그래머스
- 터키 여행
- 튀르키예 여행
- spark
- 머신러닝
- 스택/큐
- text mining
- 텍스트마이닝
- mysql
- 기초통계학
- Today
- Total
목록python (39)
YSY의 데이터분석 블로그
1. [회귀분석] 회귀분석 실습(1) - Statsmodel분석/데이터 스케일링(Python) : ysyblog.tistory.com/119 2. [회귀분석] 회귀분석 실습(2) - 잔차분석 (Python) : ysyblog.tistory.com/120 3. [회귀분석] 회귀분석 실습(3) - 변수선택법 (R) : ysyblog.tistory.com/121 해당 포스팅은 위 포스팅에 이어 진행됩니다. 다중공선성 독립 변수X는 종속변수 Y하고만 상관 관계가 있어야 하며, 독립 변수 X들끼리 상관 관계가 있어서는 안된다. 독립 변수간 상관 관계를 보이는 것을 다중공선성(Multicollinearity)이라고 한다. 다중공선성이 있으면 부정확한 회귀 결과가 도출될 수 있다. 다중공선성 확인 및 해결방법 포스팅..
매칭 (Matching) 실험집단과 통제집단 간의 특성이 유사하도록 인위적으로 매칭 장점 : 통제변수의 역할과 유사하지만, 관찰가능한 통제 변수를 기반으로 분석 대상을 균일하게 조정함으로써 그 외 관찰되지 않은 요인들도 유사할 것으로 가정 즉 통제변수는 딱 지정하는 변수만 유사하게 만들 수 있지만, 매칭은 지정하는 변수만 유사하게 만드는 것이 아닌 집단 자체를 유사하게 만듬 단점 : 분석대상의 숫자가 작아질 수 있음, 외적 타당성에 더 취약해짐 대표적 매칭 방법론 모든 통제변수에 대해 값이 적당히 유사한 데이터만 매칭 : Coarsened Exact Matching(CEM) 모든 통제변수들에 기반하여 실험집단이 될 경향성을 계산 후, 경향성이 유사한 데이터만 매칭 : Propensity Score Mat..
python의 Groupby 함수를 활용하는 다양한 방법을 알아보겠습니다. 데이터는 아래 kaggle 링크의 event.csv 데이터를 활용하였습니다. https://www.kaggle.com/datasets/mkechinov/ecommerce-events-history-in-electronics-store 데이터 불러오기 import pandas as pd df = pd.read_csv("events.csv") df["event_time"] = pd.to_datetime(df["event_time"]) df["date"] = df["event_time"].dt.strftime('%Y-%m-%d') groupby에 함수를 적용하는 방법 1. groupby에 메소드를 바로 적용하는 방법 df.groupby..
아래 포스팅에서 이어 진행됩니다 https://ysyblog.tistory.com/287 [시계열 분석] Prophet Prophet 알고리즘 Paper: https://peerj.com/preprints/3190.pdf Quick Start: https://facebook.github.io/prophet/docs/quick_start.html 기본가정 자동화 된 기술은 상황에 맞게 튜닝하기 어렵고 경험적 지식을.. ysyblog.tistory.com Growth 파라미터 1. Saturating(데이터의 상한과 하한 설정) 로지스틱 설정하여 비선형적 추정 Y 데이터의 상한과 하한을 반드시 설정해 주어야함. (cap, floor) 파라미터에서 growth = "saturating" 으로 설정 Test 데..
이번 포스팅에서는 파이썬과 구글드라이브를 연동하고 파일을 업로드/다운로드 하는 방법을 알아보겠습니다 사전작업 1. 아래링크로 들어갑니다. https://console.cloud.google.com/ 2. 새 프로젝트를 만듭니다 프로젝트 만들기를 클릭합니다. 프로젝트 이름을 입력하고 만들기를 누릅니다. 3. 사용자 인증정보에서 OAuth 동의 화면 구성 왼쪽 상단의 메뉴 아이콘을 누른 다음 API 및 서비스 탭의 사용자 인증 정보를 클릭합니다. 사용자 인증정보에서 동의 화면 구성을 클릭합니다. User Type를 외부를 클릭하고 만들기를 누릅니다 이후 앱정보에서 앱이름을 클릭하고, 사용자의 이메일을 입력하고 개발자 연락처 이메일도 입력하고 저장 후 계속을 누릅니다. 아래 화면이 나올 때 까지 "저장 후 계..
이번 포스팅에서는 파이썬으로 구글메일 API를 활용하여 메일을 보내고 파일까지 첨부하는 것을 알아보겠습니다. 권한설정 1. 보안 설정 변경 보안 -> 엑세스 사용 설정 -> 보안 수준이 낮은 앱 허용(사용)으로 바꾸기 2. GMail IMAP값 변경 Gmail -> 설정(톱니바퀴) -> 모든 설정보기 클릭 전달 및 POP/IMAP -> IMAP 사용안함을 사용으로 바꾸고 -> 저장 개념설명 SMTP(Simple Mail Transfer Protocol) : 인터넷에서 메일을 주고 받기 위해 이용하는 프로토콜(메일 서버간 전송 규약) POP3 : 받는 메일, 서버에 메일을 저장해 두지 않음 IMAP : 받는 메일, 서버에 메일을 저장해두어서 언제든 원하는 메일 열람 가능 MIME : 이메일을 보낼 때 형식..
목적 파이썬으로 데이터를 MYSQL의 DB에 적재하는 여러가지 방법을 알아봅니다. 데이터를 한번에 밀어넣는 방법과, 데이터를 업데이트 시켜주는 upsert 방법을 소개합니다 활용데이터 캐글의 bike 데이터를 활용 https://www.kaggle.com/c/bike-sharing-demand/data?select=train.csv 사전 작업 1: MYSQL WORKBENCH DB 연결 workbench에서 local DB를 연결합니다 connection name를 지정합니다 hostname : 로컬로 연결하려면 로컬 ip인 "127.0.0.1"(자동입력 되어있음), AWS RDS로 연결하려면 RDS의 hostname을 입력합니다 username : 기본은 "root" 입니다 password : "Sto..
데이터프레임에 메소드를 적용하여 새로운 컬럼을 만드는 방법을 알아보겠습니다. 물론 반복문을 사용해서 데이터프레임에서 한줄씩 읽어와서 처리한 다음 컬럼을 만드는 방법도 있지만 이러한 방법은 시간이 오래걸린다는 단점이 있습니다. 따라서 함수를 활용해서 데이터프레임을 가공하는 여러가지 방법을 알아보겠습니다. 데이터프레임은 아래 예시 데이터를 활용하였습니다. # 사전 세팅코드 import pandas as pd data = pd.read_csv("data.csv") 하나의 컬럼만 활용하여 하나의 새로운 컬럼을 만들때 apply나 map 함수 활용 - 예시 : referrer에서 media(ex. naver, daum)을 뽑아내는 메소드를 적용시켜보겠습니다. # 적용 함수 def split_data(referre..