'Spark & Hadoop/Hadoop' 카테고리의 글 목록

[Hadoop/Spark] YARN의 구성요소와 작동방식

YARN세부 리소스 관리가 가능한 범용 컴퓨팅 프레임웍각 Application (MapReduce, HBase 등) 실행에 필요한 Resource(Cpu, Memory, Disk)를 할당하고 모니터링MapReduce의 단점을 극복하기 위해 하둡 2.0부터 제공CF) MapReduce란 : https://ysyblog.tistory.com/347 [Hadoop] 맵리듀스(MapReduce) Programming맵리듀스 프로그래밍 특징 큰 데이터를 처리할 수 있는데에 목표 데이터 셋의 포맷도 하나로 단순화하였고, 변경 불가 데이터 셋의 포멧은 Key, Value의 집합이며 변경 불가(immutable) 데이터 조작은ysyblog.tistory.com YARN의 구성요소ClusterJob 수행을 위해 여러 대..

Spark & Hadoop/Hadoop 2024.05.05

[Hadoop] 맵리듀스 프로그래밍 실행 (WordCount)

해당 포스팅에서는 맵리듀스 프로그램으로 단어수를 세는 방법을 설명합니다 WordCount 맵리듀스 프로그램 실행 1. 하둡 디렉토리로 이동한다. cd hadoop-3.3.4/sbin/ 2. input이 되는 디렉토리를 HDFS상에 만든다. bin/hdfs dfs -mkdir input bin/hdfs : hdfs와 관련된 기능을 제공해주는 권한 조정하는 곳 CF) 위 코드를 실행했을 때 아래와 같이 디렉토리가 없다고 나온다면 Hdfs 쪽에 User폴더와 내 sub폴더를 만들어 줍니다. bin/hdfs dfs -mkdir /user bin/hdfs dfs -mkdir /user/hdoop CF) 아래와 같이 Connection Error가 발생한다면 아래 코드를 실행하여 hdfs와 yarn을 실행시켜줍니다..

Spark & Hadoop/Hadoop 2023.08.20

[Hadoop] 하둡(Hadoop) 설치 (on Ubuntu)

해당 포스팅에서는 하둡을 설치 및 실행하는 방법을 설명합니다.CF) Ubuntu Version : 22.04.2JAVA 설치1. Ubunto 실행 후 JAVA 8 설치 확인java -versionJAVA 가 설치가 되어있지 않다. 2. JAVA 8 설치sudo apt install openjdk-8-jre-headless보통 아래처럼 Unable to locate package 에러가 발생한다. 따라서 업데이터 패키지 리스트를 업데이트 해주어야 한다.아래 코드를 입력하면 패키지 리스트들을 다운받게 된다. sudo apt update이후 다시 JAVA를 설치해본다. 아래 코드를 다시 입력하면 설치가 진행된다.sudo apt install openjdk-8-jre-headless자바 버전을 다시 확인해본다...

Spark & Hadoop/Hadoop 2023.08.14

[Hadoop] Windows에서 우분투 설치 (Ubuntu on WSL2) (Ubuntu 설치시 Error 해결)

이번 포스팅에서는 Windows에서 Ubuntu를 설치하는 방법을 설명합니다.CF) Ubuntu Version : 22.04.21. Window PowerShell을 관리지권한으로 실행한다.2. 아래 두 코드를 각각 실행한다.dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestartdism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart3. 아래 링크를 눌러 패키지를 다운받고 실행한다.리눅스 커널 업데이트 패키지 다운로드 링크https://wslstorestorage.blob.core.windows...

Spark & Hadoop/Hadoop 2023.08.10

[Hadoop] 맵리듀스(MapReduce) Programming

맵리듀스 프로그래밍 특징 큰 데이터를 처리할 수 있는데에 목표 데이터 셋의 포맷도 하나로 단순화하였고, 변경 불가 데이터 셋의 포멧은 Key, Value의 집합이며 변경 불가(immutable) 데이터 조작은 map과 reduce 두 개의 오퍼레이션으로만 가능 map는 입력으로 들어온 key, value를 다른 key, value나 key, value의 집합으로 만들어줌 map의 output가 없을 수도 있음 reduce : map의 출력 중(key, value)에 같은 key의 출력들을 모아서 처리해서 새로운 key, value를 만들어 주는 것 이 두 오퍼레이션은 항상 하나의 쌍으로 연속으로 실행됨 이 두 오퍼레이션의 코드를 개발자가 채워야함 입력이되는 HDFS와 출력 HDFS 위치도 지정해주어야 함..

Spark & Hadoop/Hadoop 2023.08.09

[Hadoop] 대용량 분산시스템 Hadoop과 MapReduce (Hadoop 1.0, Hadoop 2.0, Hadoop 3.0)

대용량 분산 시스템분산 환경 기반 (1대 혹은 그 이상의 서버로 구성)분산 파일 시스템과 분산 컴퓨팅 시스템이 필요Fault Tolerance소수의 서버가 고장나도 동작해야함확장이 용이해야함즉, Scale Out이 되어야함Hadoop(하둡)Doug Cutting이 구글랩 발표 논문들에 기반해 만든 오픈소스 프로젝트2003년 The Google File System2004년 MapReduce: Simplified Data Processing on Large Cluster처음 시작은 Nutch라는 오픈소스 검색엔진의 하부 프로젝트하둡은 Doug Cutting의 아들의 코끼리 인형의 이름2006년에 아파치 톱레벨 별개 프로젝트로 떨어져나옴하둡의 정의 An open source software platform ..

Spark & Hadoop/Hadoop 2023.08.09

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Spark & Hadoop/Hadoop 6

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역