반응형

분류 전체보기 339

[SQL 튜닝] 파티션을 활용한 DML튜닝

테이블 파티션 - 파티셔닝은 테이블 또는 인덱스 데이터를 특정 컬럼(파티션 키) 값에 따라 별도 세크먼트에 나눠서 저장하는 것 - 파티션이 필요한 이유 1. 관리적측면 : 파티션 단위 백업, 추가, 삭제, 변경 --> 가용성 향상 2. 성능 측면 : 파티션 단위 조회 및 DML, 경합 또는 부하 분산. 1) Range 파티션 주로 날짜 컬럼을 기준으로 파티셔닝함. 파티션 테이블에 대한 SQL 성능 향상 원리는 파티션 Pruning(=elimination)에 있음. 파티션 pruning이란 SQL 하드파싱이나 실행 시점에 조건절을 분석해서, 읽지 않아도 되는 파티션 세그먼트를 액세스 대상에서 제외하는 기능. 파티션도 클러스터, IOT와 마찬가지로 관련있는 데이터가 물리적으로 인접하도록 저장하는 클러스터링 ..

SQL & DB/SQL 튜닝 2021.06.07

[SQL 튜닝] SQL분석도구(MYSQL)

실행계획 확인 1. Explain 실행계획 확인 방법 EXPLAIN SELECT * FROM 테이블 2. 컬럼별 내용정리 MySQL Query 추적 MySQL에 root로 로그인합니다. -general_log 확인 일반적으로 모든 쿼리에대한 로그를 남기기 위해 general_log Value 값을 변경해 주어야한다. general log란 MySQL에서 실행되는 전체 쿼리에 대한 로그이며, general log를 활성화하면 MySQL이 쿼리 요청을 받을 때 즉시 general log에 기록 SHOW VARIABLES LIKE '%general%'; -general_log 상태값 변경 상태값을 ON으로 변경해준다.(mysql 재시작 필요 없음) general_log_file의 기본 경로에서 실시간으로 입력..

SQL & DB/SQL 튜닝 2021.05.01

[SQL 튜닝] 인덱스 튜닝(1) - 테이블 액세스 최소화 및 부분범위 처리 활용

테이블 액세스 최소화 ROWID 논리적 주소에 가까움 포인터라고 이야기 하는 사람이 많지만 포인터가 아니다. 지시봉처럼 어딘가를 가리킨다는 의미에서는 포인터가 맞지만, 프로그래밍에서 배우는 포인터와는 전혀 상관 없음 메인메모리DB(MMDB) 잘 츄닝된 OLTP성 데이터베이스 시스템이면 버퍼캐시 히트율 99%이상. -> 디스크를 경유하지 않고 대부분 데이터를 메모리에서 읽는다는 뜻 But 메인메모리 DB만큼 빠르지 않음 메인 메모리DB의 경우 인스턴스를 기동하며 디스크에 저장된 데이터를 버퍼캐시로 로딩하고 이어서 인덱스로 생성한다. 오라클처럼 디스크 상의 주소정보를 갖는게 아니라 메모리상의 주소정보, 즉 포인터를 가지기 때문에 인덱스를 경유해 테이블을 액세스하는 비용이 낮다. I/O 매커니즘 DBA(=데이..

SQL & DB/SQL 튜닝 2021.05.01

[SQL 튜닝] 인덱스 기본

인덱스 : 테이블에서 데이터를 검색할 때 사용 인덱스 튜닝의 핵심요소 1. 인덱스 스캔 효율화 튜닝 - 인덱스 스캔과정에서 발생하는 비효율을 줄이는 것 2. 랜덤 액세스 최소화 튜닝(랜덤 I/O 방식을 사용) - 테이블 엑세스 횟수를 줄이는 것 ==> SQL튜닝은 랜덤 I/O와의 전쟁임 인덱스 구조 - 인덱스를 활용하면 일부만 읽고 멈출 수 있는 '범위 스캔'이 가능함 - DBMS는 B-Tree 인덱스를 사용 - B-Tree는 나무를 거꾸로 뒤집은 모양으로 뿌리가 위쪽에 있고 가지를 거쳐 맨 아래에 잎사귀가 있음 인덱스 수직적 탐색 - 조건을 만족하는 첫 레코드를 찾는 과정, 인덱스 스캔시작지점을 찾는 과정 - 루트를 포함한 브랜치 블록은 푯말과 같은 역할을 함. 인덱스 수평적 탐색 - 찾고자 하는 데이..

SQL & DB/SQL 튜닝 2021.04.22

[관계형 데이터 모델링] 논리적 데이터 모델링, 물리적 데이터 모델링(정규화, 역정규화)

논리적 데이터 모델링 정규화 - 중복을 제거하는 과정(쓰기의 편리함을 위해 읽기의 편리함을 희생) 제 1 정규화 - Atomic columns : 각각의 컬럼의 값은 값을 1개만 가져야함 - 하나의 컬럼을 두개의 컬럼으로 만들 수도 있지만, 테이블로 쪼개는 것이 좋음 제 2 정규화 - 부분 종속성이 없어야함 : 기본키 중에 중복키가 없어야함 - 부분적으로 종속되는 칼럼들을 따로 쪼개서 테이블을 만들어야 함 제 3 정규화 - No transitive dependencies : 이행적종속성 - 식별되는 ID와 이에 딸린 칼럼들을 분리해 내야함. 물리적 데이터 모델링 역정규화 - 정규화를 할 수록 Join을 많이 써야하기 때문에 성능이 떨어질 수 있음, 따라서 성능의 향상을 위해 join 사용횟수를 줄이기 위..

[관계형 데이터 모델링] 개념적 데이터 모델링

데이터 모델링의 순서 업무 파악 -> 개념적 데이터 모델링 -> 논리적 데이터 모델링 -> 물리적 데이터 모델링 개념 데이터 모델은 건축물의 조감도와 같이 구축하고자 하는 업무 모델의 핵심 데이터 구조를 큰 그림으로써 전체 업무에 대한 큰 윤곽을 잡고 세부적인 단계로 나아갈 수 있게 한다(ERD를 이때 그림) 논리 데이터 모델이란 개념 데이터 모델을 상세화 하여 논리적인 데이터 집합, 관리 항목, 관계를 정의한 모델 물리 데이터 모델이란 논리 데이터 모델을 DBMS의 특성 및 성능을 고려하여 구체화시킨 모델 개념적 데이터 모델링 - 관계형 데이터 모델링의 극치 - 현실에서 개념을 추출하는 필터를 제공 - 개념에 대해 다른 사람들과 대화하게 하는 언어로써 작용 - ERD(Entity Relationship..

[ADP] ADP실기 20회 후기 (복기 포함)

ADP실기 20회 후기 (복기 포함)ADP실기를 위해 준비한 것들1. 회귀분석(회귀분석 평가 및 statsmodel을 활용한 회귀 통계 분석, 잔차의 정규성/독립성/등분산성 확인, 변수선택법 등)2. 분류분석(RandomForest, gradientboost, 로지스틱회귀, 인공신경망 등의 각종 분류방법과 voting 등 각종 앙상블 방법 및 confusion matrix등 분류분석 평가 등)3. 교차분석, 분산분석(ANOVA), 상관분석4. 군집분석(KNN, SOM. EM알고리즘 활용 등)5. 연관분석(Aprori 알고리즘)6. 표본추출과 T검정7. 탐색적 요인분석(FA), 주성분분석(PCA), LEE 등 다양한 차원축소법8. 시계열분석(ARIMA, SARIMA, MARIMA, MA, AR, 정상성 처..

[Machine Learning][머신러닝] Bagging, Boosting 정리

편향-분산 상충관계(Bias-variance Trade-off) 1) 편향과 분산의 정의 편향(Bias): 점추정 예측값과 실제값의 차이 모델 학습시 여러 데이터로 학습 후 예측값의 범위가 정답과 얼마나 멀리 있는지 측정 편향(Bias(Real)): 모형화(단순화)로 미처 반영하지 못한 복잡성 => 편향이 작다면 Training 데이터 패턴(복잡성)을 최대반영 의미 => 편향이 크다면 Training 데이터 패턴(복잡성)을 최소반영 의미 분산(Variance): 구간추정 학습한 모델의 예측값이 평균으로부터 퍼진 정도(변동성/분산) 여러 모델로 학습을 반복한다면, 학습된 모델별로 예측한 값들의 차이를 측정 분산(Variance(Real)): 다른 데이터(Testing)를 사용했을때 발생할 변화 => 분산이..

[시계열분석] 시계열 데이터 전처리 실습(Python)(2) - 다중공선성 제거

[시계열분석] 시계열 데이터 전처리 방향 - 시간현실 반영, Scaling, 다중공선성 처리 :ysyblog.tistory.com/217 해당 포스팅은 위 포스팅에 이어 진행되는 실습입니다. 데이터 코딩은 아래 포스팅에 이어 진행됩니다. [시계열분석] 시계열 변수 추출 실습(Python)(1) - 시계열 분해 (bike-sharing-demand dataset) :ysyblog.tistory.com/209 [시계열분석] 시계열 변수 추출 실습(Python)(2) - 이동평균/지연값/증감폭/그룹화 (bike-sharing-demand dataset) :ysyblog.tistory.com/210 [시계열분석] 시계열 변수 추출 실습(Python)(3) - 종속변수들과 독립변수들과의 관계를 파악하기 위한 시각..

[시계열분석] 시계열 데이터 전처리 실습(Python)(1) - 시간현실반영 및 Scaling

[시계열분석] 시계열 데이터 전처리 방향 - 시간현실 반영, Scaling, 다중공선성 처리 : ysyblog.tistory.com/217 해당 포스팅은 위 포스팅에 이어 진행되는 실습입니다. 데이터 코딩은 아래 포스팅에 이어 진행됩니다. [시계열분석] 시계열 변수 추출 실습(Python)(1) - 시계열 분해 (bike-sharing-demand dataset) :ysyblog.tistory.com/209 [시계열분석] 시계열 변수 추출 실습(Python)(2) - 이동평균/지연값/증감폭/그룹화 (bike-sharing-demand dataset) :ysyblog.tistory.com/210 [시계열분석] 시계열 변수 추출 실습(Python)(3) - 종속변수들과 독립변수들과의 관계를 파악하기 위한 시..

반응형