반응형

Hadoop 4

[Hadoop/Spark] YARN의 구성요소와 작동방식

YARN세부 리소스 관리가 가능한 범용 컴퓨팅 프레임웍각 Application (MapReduce, HBase 등) 실행에 필요한 Resource(Cpu, Memory, Disk)를 할당하고 모니터링MapReduce의 단점을 극복하기 위해 하둡 2.0부터 제공CF) MapReduce란 : https://ysyblog.tistory.com/347 [Hadoop] 맵리듀스(MapReduce) Programming맵리듀스 프로그래밍 특징 큰 데이터를 처리할 수 있는데에 목표 데이터 셋의 포맷도 하나로 단순화하였고, 변경 불가 데이터 셋의 포멧은 Key, Value의 집합이며 변경 불가(immutable) 데이터 조작은ysyblog.tistory.com YARN의 구성요소ClusterJob 수행을 위해 여러 대..

[Hadoop] 맵리듀스 프로그래밍 실행 (WordCount)

해당 포스팅에서는 맵리듀스 프로그램으로 단어수를 세는 방법을 설명합니다 WordCount 맵리듀스 프로그램 실행 1. 하둡 디렉토리로 이동한다. cd hadoop-3.3.4/sbin/ 2. input이 되는 디렉토리를 HDFS상에 만든다. bin/hdfs dfs -mkdir input bin/hdfs : hdfs와 관련된 기능을 제공해주는 권한 조정하는 곳 CF) 위 코드를 실행했을 때 아래와 같이 디렉토리가 없다고 나온다면 Hdfs 쪽에 User폴더와 내 sub폴더를 만들어 줍니다. bin/hdfs dfs -mkdir /user bin/hdfs dfs -mkdir /user/hdoop CF) 아래와 같이 Connection Error가 발생한다면 아래 코드를 실행하여 hdfs와 yarn을 실행시켜줍니다..

[Hadoop] 하둡(Hadoop) 설치 (on Ubuntu)

해당 포스팅에서는 하둡을 설치 및 실행하는 방법을 설명합니다.CF) Ubuntu Version : 22.04.2JAVA 설치1. Ubunto 실행 후 JAVA 8 설치 확인java -versionJAVA 가 설치가 되어있지 않다. 2. JAVA 8 설치sudo apt install openjdk-8-jre-headless보통 아래처럼 Unable to locate package 에러가 발생한다. 따라서 업데이터 패키지 리스트를 업데이트 해주어야 한다.아래 코드를 입력하면 패키지 리스트들을 다운받게 된다. sudo apt update이후 다시 JAVA를 설치해본다. 아래 코드를 다시 입력하면 설치가 진행된다.sudo apt install openjdk-8-jre-headless자바 버전을 다시 확인해본다...

[Hadoop] 대용량 분산시스템 Hadoop과 MapReduce (Hadoop 1.0, Hadoop 2.0, Hadoop 3.0)

대용량 분산 시스템분산 환경 기반 (1대 혹은 그 이상의 서버로 구성)분산 파일 시스템과 분산 컴퓨팅 시스템이 필요Fault Tolerance소수의 서버가 고장나도 동작해야함확장이 용이해야함즉, Scale Out이 되어야함Hadoop(하둡)Doug Cutting이 구글랩 발표 논문들에 기반해 만든 오픈소스 프로젝트2003년 The Google File System2004년 MapReduce: Simplified Data Processing on Large Cluster처음 시작은 Nutch라는 오픈소스 검색엔진의 하부 프로젝트하둡은 Doug Cutting의 아들의 코끼리 인형의 이름2006년에 아파치 톱레벨 별개 프로젝트로 떨어져나옴하둡의 정의 An open source software platform ..

반응형