일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- nlp
- 회귀분석
- ADP실기
- hackerrank
- spark
- postgresql
- 딥러닝
- 튀르키예 여행
- mysql
- text mining
- 카파도키아
- 파이썬
- 프로그래머스
- sql
- 데이터분석
- python
- 머신러닝
- 기초통계학
- 시계열분석
- Deep Learning
- 스택/큐
- Machine Learning
- 통계분석
- sparkml
- 터키 여행
- 텍스트마이닝
- SparkSQL
- 튀르키예
- 인과추론
- pyspark
- Today
- Total
목록SQL & DB/PostgreSQL (25)
YSY의 데이터분석 블로그
PostgreSQL이란 오픈소스로 개발된 관계형 데이터베이스 ( ORDBMS) 다양한 영역에서 활용되고 있으며, 오라클/MySQL/MsSQL다음으로 많이 사용되는 RDBMS PostgreSQL 특징 1. 라이센스 비용이 전혀 들지 않음 PostgreSQL은 BSD(Berkeley Software Distribution) 라이센스를 활용하여 개발되었음 PostgreSQL은 자유로운 오픈 소스 라이선스를 통해 원하는 대로 DBMS를 사용, 수정 및 배포할 수 있음 따라서 데이터 volume가 커지더라도 라이센스 문제가 없기에, 기업에서는 부담이 전혀 없음 CF) BSD(Berkeley Software Distribution) BSD는 미국 캘리포니아 대학교 버클리의 CSRG(Computer System Re..
DATASET QUERY DROP TABLE IF EXISTS mst_users_with_dates; CREATE TABLE mst_users_with_dates ( user_id varchar(255) , register_stamp varchar(255) , birth_date varchar(255) ); INSERT INTO mst_users_with_dates VALUES ('U001', '2020-02-28 10:00:00', '2000-02-29') , ('U002', '2020-02-29 10:00:00', '1992-03-29') , ('U003', '2020-03-01 10:00:00', '2002-01-29') , ('U004', '2020-03-01 11:00:00', '1988-08-..
CSV파일을 PostgreSQL에 삽입하는 방법은 다음과 같습니다. 먼저 데이터를 다운로드합니다. 그리고 데이터를 넣을 데이블을 만들어줍니다. DROP TABLE IF EXISTS sale_data; CREATE TABLE sale_data ( order_id SERIAL, date DATE, category VARCHAR(50), itemcode integer, price integer, amount integer, Primary KEY(order_id) ); 데이블을 만들어 준후 CSV파일을 IMPORT하는 방법은 PSQL을 이용하는 것과 PgAdmin 기능을 이용하는 2가지 방법이 있습니다. PSQL로 CSV파일 IMPORT하기 psql을 실행합니다. 실행후 서버, 데이터베이스, 포트, 이름, 암호..
DATASET QUERY DROP TABLE IF EXISTS mst_users_with_card_number; CREATE TABLE mst_users_with_card_number ( user_id varchar(255) , card_number varchar(255) ); INSERT INTO mst_users_with_card_number VALUES ('U001', '1234-xxxx-xxxx-xxxx') , ('U002', NULL ) , ('U003', '5678-xxxx-xxxx-xxxx') ; DROP TABLE IF EXISTS purchase_log; CREATE TABLE purchase_log ( purchase_id integer , user_id varchar(255) , am..
PostgreSQL에서 중복을 제거하는 방법은 다음과 같습니다. 로직의 원리는 중복되지 않는 데이터의 id만을 필터링해서 해당 id가 아닌 id를 제거하는 로직입니다. 1. 중복 제거하고자 하는 컬럼들만 group by 해서 가장 앞의 id만 남기는 로직 DELETE FROM table_name WHERE id NOT IN ( SELECT MIN(id) FROM table_name GROUP BY column_name ); 2. 중복 제거하고자 하는 컬럼들을 기준으로 rank를 매긴 다음에, 가장 앞의 id만 남긴다. DELETE FROM table_name WHERE id IN ( SELECT T.id FROM ( SELECT id , ROW_NUMBER() OVER(PARTITION BY column..
로그데이터 매출 분석은 아래 포스팅들을 참고해주세요 1. 사용자 로그데이터(Log Data) 매출분석(1) - 사용자들의 특징 찾기 : ysyblog.tistory.com/146?category=1176025 2. 사용자 로그데이터(Log Data) 매출분석(2) - DECILE분석 : ysyblog.tistory.com/147?category=1176025 3. 사용자 로그데이터(Log Data) 매출분석(3) - RFM 분석 : ysyblog.tistory.com/148?category=1176025 4. 사용자 로그데이터(Log Data) 시계열분석(1) - 등록추이분석/지속률/정착률 : ysyblog.tistory.com/149 지속과 정착에 영향을 주는 액션 집계 지난 포스팅에서 살펴본 지속률과..
이번포스팅은 로그데이터를 시계열로 분석하는 포스팅입니다. 로그데이터 매출 분석은 아래 포스팅들을 참고해주세요 1. 사용자 로그데이터(Log Data) 매출분석(1) - 사용자들의 특징 찾기 : ysyblog.tistory.com/146?category=1176025 2. 사용자 로그데이터(Log Data) 매출분석(2) - DECILE분석 : ysyblog.tistory.com/147?category=1176025 3. 사용자 로그데이터(Log Data) 매출분석(3) - RFM 분석 : ysyblog.tistory.com/148?category=1176025 데이터 소개 및 Import 먼저 데이터를 데이터베이스에 Import합니다. 사용자데이터와 로그데이터는 이전에 썻던 데이터와 유사하지만, 효과적인..
1. 로그데이터를 분석하고 카테고리/연령별로 집계하는 포스팅 ysyblog.tistory.com/146?category=1176025 [PostgreSQL] 사용자 로그데이터(Log Data)분석(1) - 사용자들의 특징 찾기(사용자 그룹화, 카테고리별 csv파일을 Import 하는 방법은 아래 포스팅에 자세히 적혀있습니다. ysyblog.tistory.com/143 [PostgreSQL] CSV File를 Table에 삽입(Import)하기. CSV파일을 PostgreSQL에 삽입하는 방법은 다음과 같습니다. 먼저.. ysyblog.tistory.com 2. 로그데이터를 활용하여 DECILE분석하기 ysyblog.tistory.com/147?category=1176025 [PostgreSQL] 사용자 ..