Bucketing과 File System Partitioning 둘다 Hive 메타스토어의 사용이 필요: saveAsTable 데이터 저장을 이후 반복처리에 최적화된 방법으로 하는 것Bucketing DataFrame을 특정 ID를 기준으로 나눠서 테이블로 저장 먼저 Aggregation 함수나 Window 함수나 JOIN에서 많이 사용되는 컬럼이 있는지 확인있다면 데이터를 이 특정 컬럼(들)을 기준으로 테이블로 저장 다음부터는 이를 로딩하여 사용함으로써 반복 처리시 시간 단축 DataFrameWriter의 bucketBy 함수 사용 Bucket의 수(첫번째 인자)와 기준 ID 지정(두번째 인자)데이터의 특성을 잘 알고 있는 경우 사용 가능 (그 특성을 이용하여 최적화)CF) https://toward..