Hadoop발표자료

공봉식
kongbong23@gmail.com
HADOOP
그 멋있지만 병신같고 복잡한 세계

기도합시다
늑대인간을 한방에 없앨 수 있는 은총알은 없다.

700GB 짜리 하드가 2개가 있는데 1TB 짜리 파일을 담는 방법?
1.2TB 짜리 하드를 산다.
2. 파일을 500GB 로 나눠서 각각 담는다.
(파일 헤더에 몇번째 블록인지 쓴다)

하드 2개 중 하나가 사망하셨다.
미러링 한다.
(RAID 1 이라고 하지요)

서버랙이 사망하셨다. (보통 스위치나 전원이 나가죠)
랙 2개에 미러링 한다.

IDC 가 물에 잠겼다.
답 없다.
하지만…

구글 신이라면 얘기가 다르지
구글은 데이터센터가
전세계에 8개
미국 6개, 유럽 2개

여기까지 스토리지 얘기

텍스트로 된 1TB 짜리 파일의 단어를 정렬한다면…
생각하기도 싫다…

하지만 구글신은 매일 하는 일..

검색 엔진으로부터 시작

검색 엔진이 하는 일을 보자
• 크롤링 (검색 로봇이 웹을 돌면서 웹문서를 긁어온다)
• 형태소 추출 (웹문서에서 단어들을 추출한다)
• 역색인 (단어 – 웹문서 형태로 색인한다)

하둡의 창시자 – 더그 커팅
웹 크롤러 넛치를 제작
검색엔진 루씬 제작
문제는 스토리지..

내가 도와줄께~
구글에서 빅테이블 과 맵리듀스에 대한 논문 발표

기술이 빅데이터 열풍을 선도했다.
- 실로암 못에 가서 씻으라 -
- 요한복음 9장 1~7절

데이터를 모으기 시작
- 활용은 모르겠고 우선 모으고 보자
- 버려지던 데이터들을 모으기 시작

하둡은 파일 시스템
• NTFS 나 FAT32 같은 거임
• 대용량 파일을 분산해서 저장하고 분산된 파일을 처리하는 기반 시스템
하둡만 가지고는 아무것도 못한다.
DB? 절대 그런거 아님

스토리지 측면,
대용량 파일 처리 측면

namenode, secondary namenode, datanode
- 스토리지 쪽
jobtracker, tasktracker
- 대용량 파일 처리 쪽

스토리지 측면
• 3 Copy (기본 옵션)
• 같은 랙에 하나, 다른 랙에 하나
• 64mb 블록
• 파일을 64mb 블록으로 나눠서 저장
• namenode 에서 각 파일 블록을 관리한다. (속도 위해 In-momory 관리)
• namenode 장애에 매우 취약하다.
• namenode 메모리가 매우 중요하다.
• 작은 크기의 매우 많은 파일에 매우 취약하다.
• secondary namenode 는 그냥 grace 종료를 위한 용도이다.

대용량 파일 처리 측면
맵 & 리듀스

기존의 데이터 처리와 달라도 너~~~무 달라
멘붕!

2부
복잡해도 너~~~무 복잡한 하둡 생태계

하둡만 가지고는 아무것도 못한다.

하둡 생태계 내 다른 프로젝트들을 올려서 사용

이걸 다 쓴다는거….
Pig
ZooKeeper
Sqoop

오픈 소스 환경에 익숙한 사람은 괜찮지만,
MS 진영에서는 ‘이뭐병’ 상황

덮어놓고 비판하기 전에
하나씩 살펴보자

PIG
• 맵리듀스는 분석가가 만들기 어렵다.
• 하지만 보통 데이터 분석은 몇가지 기능만 사용된다.
• 그럼 기능을 스크립트로 제공하고 스크립트를 해석해서 맵리듀스 코드를 생성해서 돌리자
• 전용 스크립트 PigLatin 을 사용
• 스크립트를 분석해서 맵리듀스 코드 생성
• 코드를 하둡에 올리고 돌려서 결과 생성

확 줄었다
데이터 로드
c = load '/user/bdh/data27/cite.TXT' using PigStorage(',') as (c1:int, c2:int);
/** 카운트를 위한 컬럼 그룹화 */
g = group c by c1, c2;
/** group 데이터 수를 카운트 */
f = foreach g generate flatten(group), COUNT($1) as cnt;
/** 결과를 확인해 볼 수 있다. */
L = limit f 10;
Dump L;

HIVE
• 전용 스크립트를 분석해서 맵리듀스를 생성하는 건 같다.
• 하지만 그 과정이 별도 테이블을 정의하고 SQL Query 를 통해서 분석 결과를 뽑고 결
과를 다시 테이블 형태로 저장 가능
• 멋있어 보이지만, 생각만큼 만만한 얘는 아니다.

테이블 생성
create external table cite (
citing int , cited int
)row format delimited fields terminated by ',' lines terminated by 'n'
stored as textfile;
로컬데이터로드
load data local inpath '/home/bdh/data/cite.TXT' overwrite into table cite;
카운팅
select citing, count(citing) from cite group by citing limit 100;

HBASE
• 하둡의 심장!
• 이거 때문에라도 하둡을 써야 한다.
• 구글의 빅테이블을 구현한 데이터베이스 (하둡 생태계에서 유일한 스토리지)
• 컬럼 베이스 형태의 NoSQL DB(카산드라와 같다)
• RDBMS 랑 구조와 완전히 다르다 (DB 라는 생각을 버려야 한다)
• 하둡의 작은 파일에 대한 취약점을 극복

• 컬럼 패밀리를 미리 정의하고 컬럼패밀리 내의 컬럼은 무한히 증가될 수 있는 구조
• 각 컬럼 별 타임스태프로 버전관리가 된다.
• RowKey 를 통한 랜덤억세스에 특화되어 있다.
• Full Scan 은 뭘해도 느리다 (복잡한 문제를 한방에 푸는 방법은 없다.)
• 그래도 싱글머신에서 돌리는 것보단 훨 빠르다.
HBASE

HBASE 의 데이터 구조
• • 테이블 (Table)
• 로우(Row)들의 집합. - 각 로우는 로우키(Row Key)가있으며 다수의 컬럼패밀리로 구성됨 - 스키마 정의시 컬럼패
밀리(Column Family)만 정의
• • 로우키(Row Key)
• 임의의바이트열, 사전순으로 내림차순 정렬 - 빈바이트 문자열은 테이블의 시작과 끝을 의미
• • 컬럼패밀리 (Column Family)
• 컬럼들의그룹이며, 컬럼패밀리의 멤버컬럼은 같은접두사(prefix) - course:history와 course:math는
course라는 컬럼패밀리의 멤버컬럼임. history와 math를 컬럼 Qualifier라고 함
• • 셀(Cell)
• 로우키& 컬럼& 버전이 명시된 튜플 - 값은 임의의 바이트열이며 Timestamp가있음 StumbleUpon의
HBase의 선택 이유

HBASE 의 특징
• 컬럼패밀리만 사전에 정의하고 컬럼은 무한정 늘어날 수 있다.
• RowKey 는 바이너리로 저장된다.
• 저장은 Cell 단위로 저장된다.
• 하나의 Cell 이 타임스탬프로 여러 버전이 저장될 수 있다.
• RowKey 로 엑세스가 빠르다.
• Query 문을 지원하지 않는다 (Get, Put, Del 등만 지원)

ZOOKEEPER
• 여러개의 머신에서 데이터를 동기화해주는 툴
• 머신을 죽었을 때 자동으로 리더를 새로 선출해서 결정한다.
• HBase 등의 다른 시스템에서 공유 데이터를 관리하기 위해서 사용한다.
• 굉장히 좋은 툴로, 비슷한 기능이 요구될 때 별도로 사용 가능해 보인다.

FLUME
• 로그 수집기
• 로그가 발생되는 머신에 Agent 를 띄운다.
• 로그는 Source – Channel – Sink 를 거치며 저장된다.
• Agent 는 다시 다른 Agent 로 연결될 수 있다.
• 최종적으로 HBase 와 같은 DB 에 저장된다.

SKOOP
• 외부 DB 에서 하둡으로 데이터를 옮겨준다 (ETL 툴)
• JDBC 를 제공하는 모든 DB 에서 테이블 구조를 읽어서
• 데이터를 옮기는 맵리듀스 코드를 생성해주고
• 해당 코드를 실행함으로써 옮긴다.
• 주로 배치 잡으로 일정 간격으로 외부 DB 에서 데이터를 긁어오는데 사용

Apache, Maven, MySQL 도 힘들었는데…

이 모든 시스템들을 다 일일이 설치하고 설정까지 잡아주고…

일반적인 하둡 이용 시나리오

데이터 적재
• Flume 을 이용해서 로그 데이터를 실시간으로 쌓거나
• Sqoop 을 이용해서 일정 간격으로 외부 DB 에서 데이터를 긁어서 적재한다.
• 일반적으로 적재는 HBase 를 이용한다.

데이터 분석
• Hive 를 이용해서 데이터를 샘플링하고
• 샘플링 데이터를 데이터 분석가에게 넘겨서 R 을 이용해서 데이터 분석 모
델링을 만든다.
• 분석 모델링을 가지고 맵리듀스 스크립트를 만든다 (수동)
• 배치 잡으로 일정 간격 맵리듀스 스크립트를 만들어 결과를 생성한다.
• 생성한 결과를 외부 DB 에 저장한다.

엘라스틴서치 같은 검색 엔진을 올려서 데이터를 실시간 검색

설치도 복잡하고 사용하기도 까다로운
하둡을 왜 쓰는가?

불가능을 가능케 해주는 현재로썬 유일한 도구

그나마 5년정도 대규모 사용을 해온 안정성

먹어주는 키워드 – 하둡 쓴다고 하면 오~ 좀 하는데 소리 들을 수 있음

Hadoop발표자료

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (18)

Semelhante a Hadoop발표자료

Semelhante a Hadoop발표자료 (20)

Mais de Vong Sik Kong

Mais de Vong Sik Kong (8)

Último

Último (6)

Hadoop발표자료