9. 모놀릭 기반의 빅데이터 분석 아키텍처
CPU
Memory
HDFS Storage
CPU
Memory
HDFS Storage
CPU
Memory
HDFS Storage
Hadoop Master Node
Multiple layers of
functionality all on a single
cluster
21. Data Lake – Unlocking Data
대부분의 회사와 조직은 데이터 잠금 해제를 위해
혁신 이니셔티브에 착수함
데이터가 이미 있지만 사용되지 않거나 격리 된 데이터가
사용되지 않고 잠겨있음.
22. 22
Data Lake의 특징과 장점
Store and analyze all of your data,
from all of your sources, in one
centralized location.
“Why is the data distributed in
many locations? Where is the
single source of truth ?”
1. 모든 데이터를 한곳에
23. 23
Data Lake의 특징과 장점
Quickly ingest data
without needing to force it into a
pre-defined schema.
“How can I collect data quickly
from various sources and store
it efficiently?”
2. 신속한 데이터 추출 및 저장
24. 24
Data Lake의 특징과 장점
Separating your storage and compute
allows you to scale each component as
required
“How can I scale up with the
volume of data being generated?”
3. 데이터 저장과 처리를 분리
25. 25
Data Lake의 특징과 장점
4. 구조화 없이 분석 처리 (Schema on Read)
“Is there a way I can apply multiple
analytics and processing frameworks
to the same data?”
A Data Lake enables ad-hoc
analysis by applying schemas
on read, not write.
28. S3 Data Lake
Fixed Cluster Data Lake AWS S3 Data Lake
클러스터에 포함 된 단일 도구 (예 :
Hadoop 또는 데이터웨어 하우스 또는
Cassandra 등)로만 제한되고, 유스
케이스 및 생태계 도구가 빠르게 변함
스토리지 용량을 추가하기 위해
노드를 추가하는 데 비용이 많이 증가
노드 손실에 대한 데이터를 복제하는
데 고비용 구조
로컬 스토리지 용량 확장의 복잡성
추가 저장 장치를 추가하고 적용하는
많은 데이터 이행 기간 필요
고정된 클러스터가 아닌 다양한
데이터 객체를 지원하는 S3 저장소를
기반으로 컴퓨팅 처리 자원과 분리
데이터 관련 모든 생태계의 도구를
사용할 수있는 유연성과 적합성을
제공함
미래 지향적으로 검증된 아키텍처로
새로운 활요 사례나 새로운 도구를
간편하게 지원
현재의 최상의 제품을 플러그 앤
플레이(Plug and Play)로 활용
29. Data Lake로써의 S3
Designed for 11 9s
of durability
Designed for
99.99% availability
Durable Available High performance
Multiple upload
Range GET
Store as much as you need
Scale storage and compute
independently
No minimum usage commitments
Scalable
Amazon EMR
Amazon Redshift
Amazon DynamoDB
Integrated
Simple REST API
AWS SDKs
Event notification
Lifecycle Management
Easy to use
31. Data Lake
Amazon EMR
Web
Mobile Application
LOG 데이터
Logstash
Crewing
Amazon Kinesis
실시간 분석 데이터 변환
원천 데이터 수집
실시간 예측
Amazon ML
Amazon EMR Amazon Elasticache Amazon DDB
Amazon
Elasticsearch
Amazon ML Amazon Athena
다양한 목적에 따른 분석 도구
“수많은 원천데이터를
실시간으로 수집 변환 하고”
“실시간으로 분석 하고”
“실시간으로 예측하며”
“분석에 목적에 맞춰
다양한 도구를 기반으로
분석 역량의 확장”