반응형

분류 전체보기 339

[Hadoop] 하둡(Hadoop) 설치 (on Ubuntu)

해당 포스팅에서는 하둡을 설치 및 실행하는 방법을 설명합니다.CF) Ubuntu Version : 22.04.2JAVA 설치1. Ubunto 실행 후 JAVA 8 설치 확인java -versionJAVA 가 설치가 되어있지 않다. 2. JAVA 8 설치sudo apt install openjdk-8-jre-headless보통 아래처럼 Unable to locate package 에러가 발생한다. 따라서 업데이터 패키지 리스트를 업데이트 해주어야 한다.아래 코드를 입력하면 패키지 리스트들을 다운받게 된다. sudo apt update이후 다시 JAVA를 설치해본다. 아래 코드를 다시 입력하면 설치가 진행된다.sudo apt install openjdk-8-jre-headless자바 버전을 다시 확인해본다...

[Hadoop] Windows에서 우분투 설치 (Ubuntu on WSL2) (Ubuntu 설치시 Error 해결)

이번 포스팅에서는 Windows에서 Ubuntu를 설치하는 방법을 설명합니다.CF) Ubuntu Version : 22.04.21. Window PowerShell을 관리지권한으로 실행한다.2. 아래 두 코드를 각각 실행한다.dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestartdism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart3. 아래 링크를 눌러 패키지를 다운받고 실행한다.리눅스 커널 업데이트 패키지 다운로드 링크https://wslstorestorage.blob.core.windows...

[Hadoop] 맵리듀스(MapReduce) Programming

맵리듀스 프로그래밍 특징 큰 데이터를 처리할 수 있는데에 목표 데이터 셋의 포맷도 하나로 단순화하였고, 변경 불가 데이터 셋의 포멧은 Key, Value의 집합이며 변경 불가(immutable) 데이터 조작은 map과 reduce 두 개의 오퍼레이션으로만 가능 map는 입력으로 들어온 key, value를 다른 key, value나 key, value의 집합으로 만들어줌 map의 output가 없을 수도 있음 reduce : map의 출력 중(key, value)에 같은 key의 출력들을 모아서 처리해서 새로운 key, value를 만들어 주는 것 이 두 오퍼레이션은 항상 하나의 쌍으로 연속으로 실행됨 이 두 오퍼레이션의 코드를 개발자가 채워야함 입력이되는 HDFS와 출력 HDFS 위치도 지정해주어야 함..

[Hadoop] 대용량 분산시스템 Hadoop과 MapReduce (Hadoop 1.0, Hadoop 2.0, Hadoop 3.0)

대용량 분산 시스템분산 환경 기반 (1대 혹은 그 이상의 서버로 구성)분산 파일 시스템과 분산 컴퓨팅 시스템이 필요Fault Tolerance소수의 서버가 고장나도 동작해야함확장이 용이해야함즉, Scale Out이 되어야함Hadoop(하둡)Doug Cutting이 구글랩 발표 논문들에 기반해 만든 오픈소스 프로젝트2003년 The Google File System2004년 MapReduce: Simplified Data Processing on Large Cluster처음 시작은 Nutch라는 오픈소스 검색엔진의 하부 프로젝트하둡은 Doug Cutting의 아들의 코끼리 인형의 이름2006년에 아파치 톱레벨 별개 프로젝트로 떨어져나옴하둡의 정의 An open source software platform ..

[수학 리부트] 거듭제곱근, 로그, 로그함수, 지수함수

거듭제곱근과 지수의 확장 지수의 덧셈, 뺄셈, 곱셈, 나눗셈 거듭제곱근 : n 제곱하여 a가 되는 수를 a의 n제곱근이라 한다. a의 제곱근 중 양수인 것을 택하여 루트 기호를 써서 √ a 로 나타낸다. a의 n제급근 중 양수인 것, 양수가 없을 때는 음수를 택하여 ⁿ√ a 로 나타낸다. n이 짝수일 경우 a > 0 이면, 그래프와 y = a는 세로축을 중심으로 대칭되는 두곳에서 만남, 즉, 양수의 짝수 번 거듭제곱근은 2개가 존재 a = 0 이면, 그래프와 원점에서 만남 a 0 ⁿ√ a + ⁿ√ a, -..

[수학 리부트] 도형의 기초 (삼각비)

삼각비 직각삼각형에서 내각의 크기에 따라 세 변의 비가 어떻게 정해지는지 나타낸 것 기준각 : 삼각비를 나타낼 때 기준이 되는 각 (ex. ∠A ) CF) 밑변 : 선AC, 높이 : 선BC 비 비의 값 비의 이름 표기법 높이 : 밑변 = a : c a / b 탄젠트 (tangent) tan θ 밑변 : 빗변 = b : c b / c 코사인 (ㅊosine) cos θ 높이 : 빗변 = a : c a / c 사인 (sine) sin θ 피타고라스 공식과 삼각비 빗변 OP는 길이가 1이므로 사인과 코사인의 값을 쉽게 얻을 수 있다. 여기서 피타고라스 정리를 적용해보면 탄센트는 아래와 같이 사인과 코사인을 활용해 나타낼 수 있다. 기준각에 따른 삼각비 1) 45도 삼각비 2) 30, 60도 삼각비 기준각에 따른..

[ADP] ADP 합격 후기(필기 : 17회, 실기 : 18,19,20회)

ADP 필기 ADP 필기 결과는 다음과 같습니다. 데이터 분석 전문가 필기는 아래의 책으로 공부하였습니다. https://link.coupang.com/a/1ozYG 2023 ADsP 데이터 분석 준전문가 COUPANG www.coupang.com https://link.coupang.com/a/1oAa6 ADP 필기 데이터 분석 전문가 COUPANG www.coupang.com 파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음 최근에 제2회 빅데이터 분석기사 필기시험을 쳤었는데, ADP필기가 이보다 훨씬 어렵습니다. 커트라인도 높고 문제 난이도도 높으며 무엇보다 서술형이 굉장히 큰 부담이 됩니다. 시험시간에 3시간이라서 넉넉할 줄 알았는데, 서술형에서 거의 2시간을 썼었던 기억이 납니다. 오히려..

[회귀분석] 회귀분석 실습(4) - 다중공선성 (Python)

다중공선성독립 변수X는 종속변수 Y하고만 상관 관계가 있어야 하며, 독립 변수 X들끼리 상관 관계가 있어서는 안된다.독립 변수간 상관 관계를 보이는 것을 다중공선성(Multicollinearity)이라고 한다.다중공선성이 있으면 부정확한 회귀 결과가 도출될 수 있다.다중공선성 확인 및 해결방법 포스팅ysyblog.tistory.com/171 [회귀분석] 다중회귀분석(2) - 다중공선성(다중공선성 검정 및 해결)1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 :ysyblog.tistory.com/157 2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 :ysyblog.tistor..ysyblog.tisto..

[회귀분석] 회귀분석 실습(3) - 변수선택법 (R)

이번 포스팅은 모델링을 할때 사용하는 변수선택법에 대해 알아봅니다.변수선택법변수선택법은 최적의 회귀방정식 선택에 도움을 주는 방법론이다변수선택법에는 전진선택법, 후진제거법, 단계선택법이 있다.파이썬에서는 OLS결과를 보면서 수작업으로 변수를 조정해야하지만, R에서는 step()라는 함수를 활용하여 변수선택법을 쉽게 할 수 있다. 최적회귀방정식의 선택설명변수 선택y에 영향을 미칠 수 있는 모든 설명변수 x들을 y의 값을 예측하는데 사용데이터에 설명변수 x들의 수가 많아지면 관리하는데 많은 노력이 요구되므로, 가능한 범위 내에서 적은 수의 설명변수를 선택모형선택(exploratory analysis) : 분석 데이터에 가장 잘 맞는 모형을 찾아내는 방법모든 가능한 독립변수들의 조합에 대한 회귀모형을 생성한 ..

[회귀분석] 회귀분석 실습(2) - 잔차분석 (Python)

1. [회귀분석] 회귀분석 실습(1) - Statsmodel분석/데이터 스케일링(Python) : ysyblog.tistory.com/119 [회귀분석] 회귀분석 실습(1) - OLS 회귀분석 결과 해석 및 범주형 변수 처리 (Statsmodel)Statsmodel을 활용한 회귀분석 statsmodels 패키지에서는 OLS 클래스를 사용하여 선형 회귀분석을 실시한다 독립변수와 종속변수가 모두 포함된 데이터프레임이 생성되며, 상수항 결합은 하지 않아도ysyblog.tistory.com이번 포스팅은 파이썬으로 잔차분석을 하는 방법들을 소개하겠습니다. 이번 포스팅은 위 포스팅에 이어 진행됩니다. 잔차분석잔차분석은 회귀모형에 대한 가정(정규성, 등분산성, 독립성)을 충족하는지에 대한 검정, 이상치가 개입하는지에..

반응형