일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- 카파도키아
- 통계분석
- nlp
- ADP실기
- 터키 여행
- 기초통계학
- 텍스트마이닝
- 딥러닝
- 인과추론
- Machine Learning
- 머신러닝
- 스택/큐
- text mining
- pyspark
- spark
- SparkSQL
- 프로그래머스
- mysql
- Deep Learning
- 시계열분석
- sql
- 회귀분석
- 튀르키예 여행
- postgresql
- 파이썬
- sparkml
- 튀르키예
- 데이터분석
- python
- hackerrank
- Today
- Total
목록Spark & Hadoop/Hadoop (5)
YSY의 데이터분석 블로그
해당 포스팅에서는 맵리듀스 프로그램으로 단어수를 세는 방법을 설명합니다 WordCount 맵리듀스 프로그램 실행 1. 하둡 디렉토리로 이동한다. cd hadoop-3.3.4/sbin/ 2. input이 되는 디렉토리를 HDFS상에 만든다. bin/hdfs dfs -mkdir input bin/hdfs : hdfs와 관련된 기능을 제공해주는 권한 조정하는 곳 CF) 위 코드를 실행했을 때 아래와 같이 디렉토리가 없다고 나온다면 Hdfs 쪽에 User폴더와 내 sub폴더를 만들어 줍니다. bin/hdfs dfs -mkdir /user bin/hdfs dfs -mkdir /user/hdoop CF) 아래와 같이 Connection Error가 발생한다면 아래 코드를 실행하여 hdfs와 yarn을 실행시켜줍니다..
해당 포스팅에서는 하둡을 설치 및 실행하는 방법을 설명합니다. CF) Ubuntu Version : 22.04.2 JAVA 설치 1. Ubunto 실행 후 JAVA 8 설치 확인 java -version JAVA 가 설치가 되어있지 않다. 2. JAVA 8 설치 sudo apt install openjdk-8-jre-headless 보통 아래처럼 Unable to locate package 에러가 발생한다. 따라서 업데이터 패키지 리스트를 업데이트 해주어야 한다. 아래 코드를 입력하면 패키지 리스트들을 다운받게 된다. sudo apt update 이후 다시 JAVA를 설치해본다. 아래 코드를 다시 입력하면 설치가 진행된다. sudo apt install openjdk-8-jre-headless 자바 버전..
이번 포스팅에서는 Windows에서 Ubuntu를 설치하는 방법을 설명합니다. CF) Ubuntu Version : 22.04.2 1. Window PowerShell을 관리지권한으로 실행한다. 2. 아래 두 코드를 각각 실행한다. dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart 3. 아래 링크를 눌러 패키지를 다운받고 실행한다. 리눅스 커널 업데이트 패키지 다운로드 링크 https://wslstorestorage.blob.core...
맵리듀스 프로그래밍 특징 큰 데이터를 처리할 수 있는데에 목표 데이터 셋의 포맷도 하나로 단순화하였고, 변경 불가 데이터 셋의 포멧은 Key, Value의 집합이며 변경 불가(immutable) 데이터 조작은 map과 reduce 두 개의 오퍼레이션으로만 가능 map는 입력으로 들어온 key, value를 다른 key, value나 key, value의 집합으로 만들어줌 map의 output가 없을 수도 있음 reduce : map의 출력 중(key, value)에 같은 key의 출력들을 모아서 처리해서 새로운 key, value를 만들어 주는 것 이 두 오퍼레이션은 항상 하나의 쌍으로 연속으로 실행됨 이 두 오퍼레이션의 코드를 개발자가 채워야함 입력이되는 HDFS와 출력 HDFS 위치도 지정해주어야 함..
빅데이터의 정의 정의 1 : 서버 한대로 처리할 수 없는 규모의 데이터 분산 환경이 필요하느냐에 포커스 2012년 4월 아마존 클라우드 컨퍼런스에서 아마존의 data scientist인 존 라우저(John Rauser)가 내린 정의 정의 2 : 기존의 소프트웨어로는 처리할 수 없는 규모의 데이터 대표적인 기존 소프트웨어 오라클이나 MySQL과 같은 관계형 데이터베이스 분산 환경을 염두해두지 않음 Scale up 접근 방식 (메모리 추가, CPU 추가, 디스크 추가 하는 등의 서버의 스펙을 높이는 것) CF) Scale out : 서버를 여러개 붙여활용하는 방식 정의 3 : 4V (Volume, Velocity, Variety, Varecity) Volume: 데이터의 크기가 대용량 Velocity: 데이..