'2024/05/05 글 목록

[Hadoop/Spark] YARN의 구성요소와 작동방식

YARN세부 리소스 관리가 가능한 범용 컴퓨팅 프레임웍각 Application (MapReduce, HBase 등) 실행에 필요한 Resource(Cpu, Memory, Disk)를 할당하고 모니터링MapReduce의 단점을 극복하기 위해 하둡 2.0부터 제공CF) MapReduce란 : https://ysyblog.tistory.com/347 [Hadoop] 맵리듀스(MapReduce) Programming맵리듀스 프로그래밍 특징 큰 데이터를 처리할 수 있는데에 목표 데이터 셋의 포맷도 하나로 단순화하였고, 변경 불가 데이터 셋의 포멧은 Key, Value의 집합이며 변경 불가(immutable) 데이터 조작은ysyblog.tistory.com YARN의 구성요소ClusterJob 수행을 위해 여러 대..

Spark & Hadoop/Hadoop 2024.05.05

[Spark] Spark 소개 및 Spark관련 정보 모음 (Spark 구성요소, 작동방식 등)

Spark 란버클리 대학의 AMPLab에서 아파치 오픈소스 프로젝트대규모 데이터를 처리하기 위한 클러스터 컴퓨팅 프레임워크 Java로 개발되었으며 Python, Sql, Scala등의 언어들을 지원하여, 어떤 언어로 개발하든 성능에 큰 이슈 없도록 설계Hadoop와 달리 MapReduce 로직중 Map를 메모리에서 처리하기에 Hadoop보다 속도가 빠름빅데이터 처리 관련 다양한 기능 제공https://spark.apache.org/releases/spark-release-3-5-0.html Spark Release 3.5.0 | Apache SparkSpark Release 3.5.0 Apache Spark 3.5.0 is the sixth release in the 3.x series. With sig..

Spark & Hadoop/Spark 2024.05.05

[Spark] Spark Action의 구성요소(Job, Stages, Tasks)와 Spark의 연산 (Transformations /Actions / Lazy Execution)

Job, Stages, TasksAction -> Job -> 1+ Stages -> 1+ Tasks (큰 순서대로) Action Job을 하나 만들어내고 코드가 실제로 실행됨Lazy Execution Job 하나 혹은 그 이상의 Stage로 구성됨 Stage는 Shuffling이 발생하는 경우 새로 생김 Stage Stage는 기본적으로 Shuffling없이 실행될 수 있는 Narrow Dependencies Task들의 집합DAG의 형태로 구성된 Task들 존재 여기 Task들은 파티션 수 만큼 병렬 실행이 가능 Task 가장 작은 실행 유닛으로 Executor에 의해 실행됨 Lazy Execution /Transformations /ActionsSpark의 연산은 Transformation과 Act..

Spark & Hadoop/Spark 2024.05.05

[Spark] Spark 프로그램 구조 (Driver, Executor), Spark Cluster Manager

Spark 프로그램 실행 환경개발/테스트/학습 환경 (Interactive Clients)노트북 (주피터, 제플린)Spark Shell프로덕션 환경 (Submit Job)spark-submit (command-line utility): 가장 많이 사용됨데이터브릭스 노트북:노트북 코드를 주기적으로 실행해주는 것이 가능REST API:Spark Standalone 모드에서만 가능API를 통해 Spark job 실행실행코드는 미리 HDFS등의 파일 시스템에 적재되어 있어야함Spark 프로그램의 구조1. Driver실행되는 코드의 마스터 역할 수행 (YARN의 Application Master)컨테이너를 하나 잡아서 돌게됨.사용자 코드를 실행하며 실행 모드(client, cluster)에 따라 실행되는 곳이 달..

Spark & Hadoop/Spark 2024.05.05

2024/05/05 4

티스토리툴바