일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- nlp
- python
- postgresql
- 회귀분석
- ADP실기
- 튀르키예 여행
- 머신러닝
- 시계열분석
- hackerrank
- spark
- SparkSQL
- 기초통계학
- 튀르키예
- text mining
- 인과추론
- 텍스트마이닝
- Deep Learning
- 통계분석
- 카파도키아
- 딥러닝
- sql
- 터키 여행
- 데이터분석
- 파이썬
- sparkml
- 스택/큐
- pyspark
- 프로그래머스
- Machine Learning
- mysql
- Today
- Total
목록데이터분석 (14)
YSY의 데이터분석 블로그
1. [회귀분석] 회귀분석 실습(1) - Statsmodel분석/데이터 스케일링(Python) : ysyblog.tistory.com/119 2. [회귀분석] 회귀분석 실습(2) - 잔차분석 (Python) : ysyblog.tistory.com/120 3. [회귀분석] 회귀분석 실습(3) - 변수선택법 (R) : ysyblog.tistory.com/121 해당 포스팅은 위 포스팅에 이어 진행됩니다. 다중공선성 독립 변수X는 종속변수 Y하고만 상관 관계가 있어야 하며, 독립 변수 X들끼리 상관 관계가 있어서는 안된다. 독립 변수간 상관 관계를 보이는 것을 다중공선성(Multicollinearity)이라고 한다. 다중공선성이 있으면 부정확한 회귀 결과가 도출될 수 있다. 다중공선성 확인 및 해결방법 포스팅..
코멘토에서 진행했던 5주간의 직무부트캠프를 마치고 후기를 적어봅니다. 제가 선택한 수업은 수업, 즉 실무에서 데이터분석을 어떻게 하나를 알아보는 수업이었습니다. 1. 직무부트 신청 계기 직무부트캠프 신청 계기는 먼저 취업이 안되서이다. 우선 나의 이력을 잠깐 말씀드리자면, 대학교에서 데이터분석을 경험했으며, 1년정도 대기업 영업직무를 수행하였으며, 퇴사 후 6개월동안 학원을 다니며 데이터 분석 공부를 하였다. 원래부터 데이터분석 관련 직무를 하고 싶었지만 그렇지 못하였기 때문에 퇴사하고 직무를 바꿔보려고 공부한 것이다. 6개월 동안 누구보다 열심히 공부하고 여러 프로젝트를 경험했기 때문에, 이 정도면 취업이 될까 생각하였지만 현실은 냉혹하였다. 사실 이 직무는 석박사가 아니면 거의 뽑지 않는다. 대기업뿐..
회귀분석 회귀분석이란 독립변수(=설명변수)라 불리우는 하나(또는 둘 이상)의 변수에 기초하여 종속변수(=피설명 변수)라 불리우는 다른 한 변수의 값을 설명하고 예측하는 추측통계이다. 상관분석 : 두 변수 모두 확률변수로 가정, 두 변수간의 선형성 전도를 추정하는 것이 목적 회귀분석 : 독립변수는 확정변수로 가정하고 종속변수는 확률변수로 가정, 독립변수의 주어진 값으로 종속변수의 평균값을 추정, 예측하는 것이 목적 단순선형회귀분석 만약 X값이 [1,2,3,4,5] 이고 Y가 [1,3,5,7,9] 이라고 가정합니다. 예를들어 X가 2일 때 Y는 3인 것입니다. 그렇다면 X가 6일때 Y는 얼마일까요? 바로 아시겠지만 Y는 11입니다. 이를 함수로 만든다면 F(X) = 2X -1 인 것입니다.위의 예제는 간단해..
로그데이터 매출 분석은 아래 포스팅들을 참고해주세요 1. 사용자 로그데이터(Log Data) 매출분석(1) - 사용자들의 특징 찾기 : ysyblog.tistory.com/146?category=1176025 2. 사용자 로그데이터(Log Data) 매출분석(2) - DECILE분석 : ysyblog.tistory.com/147?category=1176025 3. 사용자 로그데이터(Log Data) 매출분석(3) - RFM 분석 : ysyblog.tistory.com/148?category=1176025 4. 사용자 로그데이터(Log Data) 시계열분석(1) - 등록추이분석/지속률/정착률 : ysyblog.tistory.com/149 지속과 정착에 영향을 주는 액션 집계 지난 포스팅에서 살펴본 지속률과..
이번포스팅은 로그데이터를 시계열로 분석하는 포스팅입니다. 로그데이터 매출 분석은 아래 포스팅들을 참고해주세요 1. 사용자 로그데이터(Log Data) 매출분석(1) - 사용자들의 특징 찾기 : ysyblog.tistory.com/146?category=1176025 2. 사용자 로그데이터(Log Data) 매출분석(2) - DECILE분석 : ysyblog.tistory.com/147?category=1176025 3. 사용자 로그데이터(Log Data) 매출분석(3) - RFM 분석 : ysyblog.tistory.com/148?category=1176025 데이터 소개 및 Import 먼저 데이터를 데이터베이스에 Import합니다. 사용자데이터와 로그데이터는 이전에 썻던 데이터와 유사하지만, 효과적인..
1. 로그데이터를 분석하고 카테고리/연령별로 집계하는 포스팅 ysyblog.tistory.com/146?category=1176025 [PostgreSQL] 사용자 로그데이터(Log Data)분석(1) - 사용자들의 특징 찾기(사용자 그룹화, 카테고리별 csv파일을 Import 하는 방법은 아래 포스팅에 자세히 적혀있습니다. ysyblog.tistory.com/143 [PostgreSQL] CSV File를 Table에 삽입(Import)하기. CSV파일을 PostgreSQL에 삽입하는 방법은 다음과 같습니다. 먼저.. ysyblog.tistory.com 2. 로그데이터를 활용하여 DECILE분석하기 ysyblog.tistory.com/147?category=1176025 [PostgreSQL] 사용자 ..
해당 포스팅은 아래 포스팅에 이어서 진행합니다. ysyblog.tistory.com/146 [PostgreSQL] 사용자 로그데이터(Log Data)분석(1) - 사용자들의 특징 찾기(사용자 그룹화, 카테고리별 csv파일을 Import 하는 방법은 아래 포스팅에 자세히 적혀있습니다. ysyblog.tistory.com/143 [PostgreSQL] CSV File를 Table에 삽입(Import)하기. CSV파일을 PostgreSQL에 삽입하는 방법은 다음과 같습니다. 먼저.. ysyblog.tistory.com Decile 분석(Ntile) -Decile분석이란 데이터를 10단계로 분할해서 중요도를 파악하는 분석입니다.(해당 데이터에서 중요도라 함은 구매액이 될것입니다.) - 같은 수로 데이터 그룹을 ..
이번포스팅에서는 카테고리별 매출을 파악하는 것을 해보겠습니다. - 분석할 데이터와 데이터를 DB에 import하는 방법은 아래 링크에서 보실 수 있습니다. ysyblog.tistory.com/143 [PostgreSQL] CSV File를 Table에 삽입(Import)하기. CSV파일을 PostgreSQL에 삽입하는 방법은 다음과 같습니다. 먼저 데이터를 다운로드합니다. 그리고 데이터를 넣을 데이블을 만들어줍니다. DROP TABLE IF EXISTS sale_data; CREATE TABLE sale_data ( order_id S.. ysyblog.tistory.com - 매출 시계열 분석은 아래 링크에서 보실 수 있습니다. ysyblog.tistory.com/144 [PostgreSQL] 매출데이..