12. 저장용량 / 엑세스 속도
- 저장용량 증가폭 > 엑세스 속도 증가폭
해결책 : 여러 하드에 분산, 병렬 처리
but, 1. 장애 확률도 덩달아 높아짐
2. 분할된 데이터를 다시 결합 하는 cost
13. 저장용량 / 엑세스 속도
- 저장용량 증가폭 > 엑세스 속도 증가폭
해결책 : 여러 하드에 분산, 병렬 처리
but, 1. 장애 확률도 덩달아 높아짐
2. 분할된 데이터를 다시 결합 하는 cost
1 -> HDFS
2 -> MapReduce
14. 1.3 다른 시스템과의 비교
<Hadoop>
MapReduce is a programming model for
processing large data sets with a parallel,
distributed algorithm on a cluster
Map(k1,v1) → list(k2,v2)
Reduce(k2, list (v2)) → list(v3)
15.
16. 1.3.1 관계형 데이터베이스
- 구조화된 데이터 / 비구조화된 데이터
- 정규화 / 정규화X
- 비선형으로 확장 / 선형으로 확장
17. 1.3.2 그리드 컴퓨팅
- 수백 기가 바이트처리시, 네트워크 병목
Hadoop, 데이터가 로컬 -> 빠름
- 복잡한 아키텍처
Hadoop, 무공유 아키텍처
18. 1.3.3 자발적 컴퓨팅
- SETI@home, 메르센 소수 찾기,
Folding@home
(http://cafe.naver.com/setikah)
- CPU중심적, CPU > 전송시간
19. 1.4 하둡의 역사
- 조어(made-up name)
"내 아이가 봉제 인형인 노란 코끼리에게 지어준
이름이다. 짧고, 상대적으로 맞춤법과 발음이 쉽
고, 특별한 의미는 없다."
22. 1.5 아파치 하둡과 하둡 생태계
공통 : 분산 파일 시스템, 일반적인 I/O를 위한 컴포넌트와 인
터페이스 집합
에이브로(Avro) : 교차언어 RPC와 영속적인 데이터 스토리
지를 위한 데이터 직렬화 시스템
맵리듀스 : 범용 컴퓨터의 커다란 클러스터에서 수행되는 분
산 데이터 처리 모델/실행환경
HDFS:범용 컴퓨터로 된 커다란 클러스터에서 수행되는 분
산 파일 시스템
23. 1.5 아파치 하둡과 하둡 생태계
피그:탐색용 데이터 흐름 언어
하이브:분산 데이터웨어하우스
HBASE:분산 컬럼 지향DB
주키퍼:고가용성 조정 서비스
스쿱:관계형DB와 HDFS간 데이터를 이동시키
기 위한 도구
오지: 하둡 잡(맵리듀스,피그,하이브,스쿱)의 워
크플로우를 실행/스케쥴링