글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)

AWS Online Series:
Data, Analytics, and ML Edition
글로벌 기업들의 효과적인 데이터 분석을 위한
Data Lake 구축 및 분석 사례
김준형, 솔루션즈 아키텍트

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
강연 중 질문하는 방법
Go to Webinar “Questions” 창에 자신이 질문한
내역이 표시됩니다. 기본적으로 모든 질문은
공개로 답변 됩니다만 본인만 답변을 받고 싶으면
(비공개)라고 하고 질문해 주시면 됩니다.
본 컨텐츠는 고객의 편의를 위해 AWS 서비스 설명을 위해 온라인 세미나용으로 별도로 제작, 제공된 것입니다. 만약 AWS
사이트와 컨텐츠 상에서 차이나 불일치가 있을 경우, AWS 사이트(aws.amazon.com)가 우선합니다. 또한 AWS 사이트
상에서 한글 번역문과 영어 원문에 차이나 불일치가 있을 경우(번역의 지체로 인한 경우 등 포함), 영어 원문이 우선합니다.
AWS는 본 컨텐츠에 포함되거나 컨텐츠를 통하여 고객에게 제공된 일체의 정보, 콘텐츠, 자료, 제품(소프트웨어 포함) 또는 서비스를 이용함으로 인하여 발생하는 여하한 종류의 손해에
대하여 어떠한 책임도 지지 아니하며, 이는 직접 손해, 간접 손해, 부수적 손해, 징벌적 손해 및 결과적 손해를 포함하되 이에 한정되지 아니합니다.
고지 사항(Disclaimer)

Agenda
• 데이터 분석 트렌드
• AWS Data Lake 아키텍처
• AWS Data Lake 고객 사례
• AWS Lake Formation

*Copyright: The Economist, 2017, David Parkins

Tech 기업의 성장
시가 총액 기준 상위 5개 회사*
2001
2006
2011
2016
2018
$1.091T
$406B
$446B
$406B
$582B
$976B
$365B
$383B
$556B
$383B
$877B
$272B
$327B
$277B
$452B
$839B
$261B
$293B
$237B
$364B
$523B
$260B
$273B
$228B
$228B

Data
every 5 years
생각하는 것 이상의
years
live for
Data platforms need to
scalegrows

그 어느 때보다

그 어느 때보다
빠르게 발전하는
Hadoop Elasticsearc
h
Years ago
11 8 5 4
Presto Spark
Didn’t exist

Data Scientists
Analysts
Business Users
Applications
Secure Real time
Flexible Scalable
더 다양해진
더 복잡해진

레거시 환경의 Data silos 문제
재무
시스템
마케팅/
CRM
인사
시스템
고객 접전
서비스
기타 여러
소스…
모든 데이터 소스를 한번에 볼 수 있는 단일 데이터 뷰가 없습니다.
“단일 데이터 뷰”

AWS Data Lake
AWS의 Data Lake는 중앙 집중식 클라우드 스토리지 S3를 기반으로 다양한 스키마와 구조의 데이터를
대상으로 수집, 저장, 변환, 분석 파이프라인을 구축하고 Single View로 접근하는 차세대 데이터 플랫폼입니다.
다양한 분석 가능
S3를 Source로 전통적 BI Service , 새로운 AI/ML
Service (e.g., SageMaker), Serverless 형태의 Ad-Hoc
분석(Athena) 이 가능
중앙 집중식 데이터 아키텍처 – 데이터 거버넌스
Amazon S3를 사용하여 광범위한 공통 데이터 세트로
데이터 분석 도구를 가져올 수 있는 다중 테넌트 환경
구축
빠른 데이터 수집
실시간, 배치, IoT 등 다양한 수집 도구 활용 및
별도의 스키마 정의가 없어도 빠른 데이터 수집 가능
컴퓨팅과 분석을 위한 스토리지 분리
분석을 위한 스토리지와 컴퓨팅이 분리되어 비용과
데이터 처리 워크플로우 최적화 가능
Amazon S3

A m azo n S3
A m azo n G l ac i er
AW S G l ue
원하는 유형의 모든 포멧의 데이터 저장 가능
Open and comprehensive
• 다양한 포멧의 데이터 저장 지원 :
• Text files like CSV
• Columnar like Apache Parquet and Apache ORC
• Logstash like Grok
• JSON (simple, nested), AVRO
• And more…
CSV
ORC
Grok
Avro
Parquet
JSON
Am azo n S3
Am azo n Gl aci er
AW S Gl u e
원하는 유형의 모든 포멧의 데이터 저장 가능
Open and comprehensive
• 다양한 포멧의 데이터 저장 지원 :
• Text files like CSV
• Columnar like Apache Parquet and Apache ORC
• Logstash like Grok
• JSON (simple, nested), AVRO
• And more…
CSV
ORC
Grok
Avro
Parquet
JSON

Data Lake - Amazon S3 설계 개념
Tier-1: 원본 데이터
• 원본 데이터의 저장과 보관
• 최소한의 데이터 변환 작업만
• S3의 라이프사이클 기능 활용, S3-IA 또는 Glacier
Tier-2: 분석용 데이터
• Parquet / ORC 같은 컬럼방식 포멧의 사용
• 파티션 정책에 따라 분산 및 파티션 유지 관리
• 분석을 위한 최적화
Tier-3: 특정한 분석 목적 데이터 (optional)
• 도메인 레벨로 데이터마트 분리
• Use Case에 적합한 구성
• 특정 분석 방식에 적합한 데이터 변경 (ML, AI)
Data Lake
on AWS
Redshift EMR Athena
AI
Services

전통적인 방식의 분석 시스템
OLTP ERP CRM LOB
Data Warehouse
Business Intelligence • 관계형 DB에 적합한 정형 데이터
• TBs–PBs scale
• 데이터 로딩을 위해 미리 스키마 정의
• 정기적인 리포트와 간단한Ad-hoc 쿼리
• 대규모 선비용 투자 + $10K–$50K/TB/Year

Data Lake를 통해 전통적인 DW를 확장
DataWarehouse
Business Intelligence
OLTP ERP CRM LOB
• 다양한 유형의 정형, 비정형 데이터 저장
• TBs–EBs scale
• 인사이트를 얻기 위해 다양한 분석 엔진
• 낮은 비용으로 저장과 분석이 가능
Devices Web Sensors Social
Big Data processing,
real-time, Machine Learning
Data Lake

Data Warehouse에서 Data Lake로의 확장
Redshift Spectrum
query engine
Query across
Amazon Redshift
and Amazon S3
Amazon Redshift Data Lake
SensorsWebDevicesLOBCRMERPOLTP Social
구조화 된 데이터를 위해 빠른 응답 지원
대시 보드 및 보고서 개발을 위해 BI 도구 지원
세분화 된 엑세스 제어 기능 제공
DW와 Data Lake간의 joint 쿼리 지원
Lifecycle 관리를 위해 S3로 데이터 백업 지원

Data Lakes로 데이터를 이동하는 방법
• 자체 데이터 센터로부터 데이터 이동
• 전용 네트워크 연결
• 어플라이언스 확보
• Ruggedized Shipping Container
• DB 마이그레이션
• 애플리케이션이 클라우드에 Write 할 수 있게 하는
Gateway
• 실시간 소스로부터 데이터 이동
• 기기를 AWS와 연결
• 실시간 데이터 스트림
• 실시간 비디오 스트림
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS Storage Gateway
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
실시간 소스로부터
데이터 이동
데이터 센터로부터
데이터 이동
A m azo n S3
AW S G l ue

광범위한 분석 도구를 이용한 데이터 분석
• 광범위한 분석 도구를 이용한 데이터 분석
• 데이터 웨어하우징
• 대화형 SQL 쿼리
• 빅데이터 처리
• 실시간 분석
• 대시보드 & 시각화
• 기계학습
• 별도의 분석 시스템으로 데이터를 이동하지
않은 채 쿼리 진행
• S3 Select와 Glacier Select를 통해 최대
400% 빠른 속도
• 빌트인 통합 기능을 제공하는 최대 규모의
ISV 에코시스템
• 기존 및 향후 사용 사례를 충족하고 위험을
최소화
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch service
Amazon Kinesis
Amazon QuickSight
분석기계 학습
A m azo n S3
AW S G l ue

AWS는 가장 높은 수준의 보안 제공
Compliance
AWS Artifact
Amazon Inspector
Amazon Cloud HSM
Amazon Cognito
AWS CloudTrail
Security
Amazon GuardDuty
AWS Shield
AWSWAF
Amazon Macie
VPC
Encryption
AWS Certification Manager
AWS Key Management Service
Encryption at rest
Encryption in transit
Bring your own keys, HSM
support
Identity
AWS IAM
AWS SSO
Amazon Cloud Directory
AWS Directory Service
AWS Organizations
고객은 데이터 레이크 보호를 위해 여러 계층의 보안, 계정 인식/관리, 암호화, 규정 준수가
필요합니다.

S3
Analyze & infer
Redshift
EMR
Athena
AI Services
Elasticsearch
Service
Kinesis
Discover
AWS Glue
Snowball | Snowmobile
DataSync
MSK (Managed Service for Kafka)
Direct Connect
Kinesis Data Streams | Data Firehose
Database Migration Service
Ingest
Security
KMS
IAM
CloudTrail
CloudWatch

대표적인 데이터 분석 워크로드 유형
OLTP ERP
CRM LOB
Data Warehouse Business
Intelligence
Data Lake
1001100001001010111001
0101011100101010000101
1111011010
0011110010110010110
0100011000010
Social
Devices
Web
Sensors
Machine
Learning
DW Queries
Big data
processing
Interactive
Real-time
Log analysis

데이터 분석 플랫폼 on AWS
OLTP ERP
CRM LOB
Social
Devices
Web
Sensors
Data Source Ingestion Store / process Consume
(Raw Data) (Analytics Data)
Data
Catalog
Access
Control
CrawlersData import ML-based
data prep
Amazon MSK
(Apache Kafka)
Lake Formation
AI services
: Serverless Analytics Service

AWS에서 데이터 분석 플랫폼을 운영 중인 고객들..

매일 100+ 국가에서
만 건의 주문
매일
의 전세계 인구를 먹임
개 이상의 메뉴 아이템
및 무한 변경

McDonald - 비지니스 모델의 변화
고객
은 점점
디지털화
되가는 중
경험
은 음식의 질
만큼이나
중요함
McDelivery
/UberEats
배달 서비스
시작
Global
메뉴를 선보일
레스토랑 런칭

McDonald - 데이터의 대한 도전 과제
데이터 접근의 제한
데이터 사일로
빠른 데이터 요구와
높은 고정 비용을
제한하는 스케일
제한된 인프라
스케일
대부분 과거의 일어난
일에 초점을 맞춘 분석
방법뿐
제한된 분석
방법
IT가 사용자 대신
데이터를 수집 및 유지
관리
셀프 서비스의
부족

McDonald - 글로벌 데이터 분석 플랫폼
Data Lake Operational/KnownWorkloads
Data Science/AnalyticsWorkloads
RedshiftEMR
Self-Service
Workloads
Athena
EMR SageMaker
v
Data Catalog
AWS Glue
Amazon
Kineses
Data
Firehose
Operational
Reporting and
Dashboarding
Users
Ad-hoc/Self-
service Users
Data Science,
ML/AI UsersAmazon
EC2

McDonald - 글로벌 Data Lake 세부 구조
소스 시스템에서
수집한 배치 및 실시간
원본 데이터
비지니스 룰이
적용되지 않음
주제 영역별
(subject areas)
폴더 구성
비지니스 룰이
적용된
변형 된 데이터
셀프서비스를
가능하게 하는
메터데이터 카탈로그
주제 영역별
(subject areas)
폴더 구성
아웃바운드 피드를
위한
외부 공유 데이터
3rd party를
위한
폴더 구성

McDonald - 최종 결과
데이터 통합 및 신뢰할 수 있는 데이터 플랫폼 운영
Descriptive, Predictive, Prescriptive 등 모든 분석 가능
온디멘드 인프라 스케일링 및 사용 기반의 비용
셀프 서비스 데이터 엑세스 제공 모델
주/월 단위가 아닌 시/일 시간으로 분석 시간 단축
데이터를 통해 비지니스 통찰력과 성장 속도 향상

Dow Jones - 데이터의 대한 도전 과제
혼란스러운
여러 버전의
데이터
동일한 측정
항목의 여러
버전의 데이터가
있습니다
데이터의
대한
제한된 가시성
데이터를
찾기 위해
낭비되는 시간
누락된
통찰력의 의한
의사결정 저하
불가능한 데이터
기반의 고객
세그멘테이션
다른 영업 팀과
비교하여 어떤
성과를 거두고
있는지 잘
모르겠습니다
고객의 사용
패턴을
분석하는데
4일의 시간이
걸립니다
고객의 가치를
평가하는데
어려움이
있습니다
얼마나 많은
비지니스 전문가가
내 뉴스를
구독하는지 알 수
없습니다

Dow Jones - 데이터 분석 로드맵
예측 분석통합 저장 시각화 분석 트렌드 분석 클러스터 분석
히스토리
분석
통합 통찰력단일 위치
3
21
4
5
고급 모델링
및 예측
각 라이프 사이클 단계에서
축적한 역량과 경험을
바탕으로 최종 단계에서 더
나은 통찰력을 얻는데
도움을 줄 수 있습니다.
최종 목표
예측 분석 및 머신러닝
대화식 및
시각화
과거 데이터
기반의 복잡합
분석
데이터를
세그멘트로
분류하는 고급
분석
고객은 모두
같은 저장소의
데이터를 사용
사용 가능한
데이터
스냅샷을
시각화하여
통찰력 추출

Dow Jones - 데이터 분석 플랫폼
Data Center
VPN Gateway
AWS Console
Protected Subnet
Jump
Servers
(Linux)
AWS Services & Utilities
ex: Athena, Zeppelin, ML...
(Linux/AWS CLI)
Private Subnet
Data Marts
(Redshift/Spectrum)
Access
Monitoring
(CloudTrail)
Pref. Monitoring
(Cloud Watch)
Notifications
(SNS)
Scalability
(AutoScale)
Scalability
(ELB)
Monitoring &
Notification
Encryption
(KMS)
Access
(IAM)
Security
BU Admin
Standard Business
Users
Source
s
Power
Business
Users &
Admins
SFTP
Storage Gateway
Third Party Software
ex: SAS Compute, Midtier,
Metadata, Admin (Linux)
Intermediate
Storage
(SFTP/Shared
Folders,
Messaging)
Load / Copy /
Masking Utility
(CENT OS VM) Data
Lake
Real Time
(Kinesis)
Landing
(S3)
Staging
(S3)
Warehouse
(S3)
Logs &
Exceptions
(S3)
Preload
(S3)
DB & EC2
Backups (S3)
Archival
(Glacier)
Ad-Hoc
Query
(Athena)
Predictive
(ML)
Notebooks
(Zeppelin)
SQL
Workbench/J
Exploration Tools Development Tools
Python
IDE
(default)
Scale IDE
(optional)
배치 데이터 플로우
외부 데이터 플로우
실시간 데이터 플로우
유저 엑세스 및 설정
관리 플로우
로깅 및 에러 플로우
AWS Account / Landing Zone
Direct
Connect
Glue
Glue
EMR/Spark
Cron /
Scripts
D
P
ETL
Catalog
Workflow /
Scheduling
R
(RStudio)
SQL
Tableau Server
(Windows)Integration
Public
Subnet
ELB
Load
Utility
ELB
Ext. Sources
Storage
Gateway
Admin & Power Users Consoles
ex: Tableau Desktop, SAS, SQL/MySQL
Workbench... (Windows w. RDS)

Dow Jones - Data Lake 세부 구조
기존 데이터웨어하우징
관행을 사용하여 데이터
처리 및 저장
스테이징 위치에서
소스 데이터를 준비하고,
표준화 및 카탈로그화 하기
위한 영역으로 사용
웨어하우징 위치에서
중간 테이블을 준비하고
집계 된 데이터를
데이터 마트 위치로 저장
Copy 명령어를
사용하여
Redshift로 푸시
Staging
Transformations
Sources /
Producers
Warehouse
Transformations
Data Lake Landing (S3)
Landing Logs
Data Lake Landing (S3)
Staging Logs
Data Lake Warehouse (S3)
Warehouse Logs
Mart Pre-Load (S3)
Marts Logs
Data Marts (Redshift)
Staging Indexes Warehouse
Indexes
Marts Indexes Marts Indexes
Mart
Transformations
Copy

Dow Jones - 최종 결과
B2C, B2B, 광고 비지니스를
지원하기 위한
데이터웨어하우즈 전체에 걸쳐
의 데이터를 저장하고 있음
의 대시보드를 운영하고 있음
매일
이상의 사용자가 데이터를 엑세스
하고 있음

Andes - Amazon.com의 Data Lake

도전 과제
지속적인 게이머 참여 및 유지를 위해
게임 개발자에게 지속적인 플레이어
피드백을 제공하는 루프를 만들어야
합니다.
세계에서 가장 인기있는 게임을
만들기 위해 게이머의 만족도를
실시간으로 파악하여 게이머의
참여를 보장해야 합니다.
Fortnite | 1억2천5백만+ 게이머

EpicGames - 데이터레이크 및분석 플랫폼
모든 분석 플랫폼을 AWS에서 운영
S3를 통한 데이터 레이크 구축
다양한 유형의 데이터를 Kinesis를
통해 수집
Spark를 활용한 실시간 분석
대규모 데이터처리에 EMR 활용
게임디자이너의 의사결정에 데이터
활용
Game clients
Game servers
Launcher
Game services
N E A R R E A L T I M E P I P E L I N E
N E A R R E A L T I M E P I P E L I N E
Grafana
Scoreboards API
Limited Raw Data
(real time ad-hoc SQL)User ETL
(metric definition)
Spark on EMR DynamoDB
NEAR REALTIME PIPELINES
BATCH PIPELINES
ETL using
EMR
Tableau/BI
Ad-hoc SQL
S3
(Data Lake)
Kinesis
APIs
Databases
S3
Other sources

Equinox 는 운동, 영양 및 재생을 중심으로 다양한 라이프 스타일
및 건강 관리를 제공하기 위해 요가, 필라테스, 스파, 헬스 클럽,
호텔 및 레스토랑을 운영하는 기업입니다. Equinox 는 Apple
Health와 연결하고 운동 장비에 데이터 수집 기능을 갖춘
어플리케이션을 사용하여 연결된 경험을 제공합니다.
미국, 런던 및 캐나다의 모두 주요 도시 내 200개 이상의
로케이션 운영

모바일 서비스
애플 Health와 연동된 모바일
어플리케이션 - 액티비티와 경쟁
모든 곳이 연결
- 모바일과 오프라인 거점
경쟁과 게임요소가 운동에 포함
그룹 운동
개인화 진단 프로그램
위치 기반 서비스
데이터와 연결을 중시한 서비스 컨셉

• 다양한 유형의 비지니스와
98개의 클럽과 200개가 넘는
스튜디오
• 그리고 비지니스를 지원하기
위한 다양한 지원 조직들
Digital
Products
CRM Marketing Creative
Development/
Building
Finance Member’s
Services
Maintenance
Personal
training
Pilates Spa Group
Fitness
Membership/
Sales
Retail Food
Services

단순하지만 가장 효율적인 분석 파이프라인 구축
Amazon
EMR
(Glue ETL)
S3
Glue Data
Catalog
Redshift
(Spectrum)
S3
Athena(ad-hoc query)
Reporting
Sagemaker

Data Lake를 신속하게
구축 및 관리하려면…

일반적인 Data Lake 구축 단계
데이터 활용 및 분석
데이터 프로세싱 및
카탈로그화
데이터 수집
보안 및 컴플라이언스
정책 설정
Permissions
S3 버킷 생성

AWS Lake Formation ‘19.08.08 출시!
Data
Catalog
Access
Control
CrawlersData
import
ML-based
data prepLake Formation
Amazon S3
Redshift EMR Athena
신속하게 Data Lake 구축
간편해진 보안 설정
데이터 검색 및 공유 향상
안전한 Data Lake를 신속하게 구축
데이터를 보다 신속하게 이동, 저장, 카탈로그 및 정리하고
ML transformation을 사용하여 데이터를 중복 제거할 수
있습니다.
Amazon EMR, Amazon Athena, Amazon Redshift
Spectrum, Amazon SageMaker 및 Amazon
QuickSight에서 테이블 및 컬럼 수준 데이터 액세스를
중앙에서 정의하고 이를 적용할 수 있습니다.
Lake Formation의 데이터 카탈로그를 사용하여
관련 데이터 세트를 쉽게 찾고 공유할 수 있는
메타데이터 기반 검색 기능을 제공합니다.

AWS Lake Formation 비용
별도의 추가 비용 없음 – Only pay for the
underlying services used (Glue, Athena, S3..)

aws-korea-marketing@amazon.com
twitter.com/AWSKorea
facebook.com/amazonwebservices.ko
youtube.com/user/AWSKorea
slideshare.net/awskorea
twitch.tv/aws
캠페인 온라인 세미나: Data, Analytics, and ML Edition
참석해주셔서 대단히 감사합니다.
저희가 준비한 내용, 어떻게 보셨나요?
더 나은 세미나를 위하여 설문을 꼭 작성해 주시기 바랍니다.

글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a 글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)

Semelhante a 글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트) (20)

Mais de Amazon Web Services Korea

Mais de Amazon Web Services Korea (20)

글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)

Notas do Editor