SlideShare a Scribd company logo
1 of 20
Download to read offline
MS 빅데이터 서비스 및
게임사 PoC 사례 소개
This content was developed prior to the product’s release to manufacturing, and as such, we cannot guarantee that all details included herein
will be exactly as what is found in the shipping product. Because Microsoft must respond to changing market conditions, it should not be
interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information presented after the
date of publication. The information represents the product at the time this document was printed and should be used for planning purposes
only. Information subject to change at any time without prior notice.
 빅데이터란 무엇인가?
 Why?  Azure Managed 서비스 소개
 PoC 목표
 PoC 결과
 To-Be 개선 방안 제언
• 가트너의 정의 (2012년)
 “빅 데이터는 큰 용량, 빠른 속도, 그리고(또는) 높은 다양성을 갖는 정보 자산으로서 이를 통해 의사 결정 및
통찰 발견, 프로세스 최적화를 향상시키기 위해서는 새로운 형태의 처리 방식이 필요하다.”
• 빅데이터의 특징 -3 Vs of extreme scale
 Volume : The data exceeds the physical limits of vertical scalability, implying a scale out solution
 수직적 확장에 한계가 있는 대규모 데이터
 Velocity : The decision window is small compared with the data change rate
 데이터 빠른 변화로 의사 결정 시간이 매우 짧음
 Variety : Many different formats make integration difficult and expensive
 다양한 데이터 포맷으로 통합의 난이도 및 비용이 높음
빅데이터란 무엇인가?
빅데이터 유형
Big data
Log files
Data market feeds
Text/image
Click stream
Wikis/blogs
Sensors/RFID/
devices
Social sentiment
Web 2.0
빅데이타 정의와 아파치 하둡
Machine Learning
and Analytics
(예시) Big Data as part of Cortana Intelligence
Action
People
Automated
Systems
Apps
Web
Mobile
Bots
Intelligence
Dashboards &
Visualizations
Cortana
Bot
Framework
Cognitive
Services
Power BI
Information
Management
Event Hubs
Data Catalog
Data Factory
Intelligence
Stream Analytics
HDInsight
(Hadoop & Spark)
Big Data Stores
Data Lake Store
SQL Data
Warehouse
Data
Sources
Apps
Sensors
and
devices
Data
Data Lake Analytics
Machine Learning
< Apache Hadoop Ecosystem >
아파치 하둡 에코 시스템과 Azure HDInsight
Microsoft’s managed Hadoop as a Service
100% open source Apache Hadoop
Built on the latest releases across Hadoop (2.6)
 향후에도 빠르게 개선되고 있는 하둡 에코 시스템의 최신 버전 활용
 검증된 배포판
Up and running in minutes with no hardware to deploy
 필요한 시점에 바로 배포하여 사용 / Opex vs. Capex / 비용 절감
Hadoop Meets the Cloud
Why HDInsight?
HDInsight 지원 클러스터 유형 및 용도
HDInsight는 4가지 대표적인 아파치 빅데이터 플랫폼을 Managed
형태로 제공하는 MS의 빅데이터 서비스 (호튼웍스 배포판 기반)
1. Hadoop : 배치
2. HBase : NoSQL
3. Storm : 실시간 스트리밍
4. Spark : 배치 & 스트리밍 & 머신러닝
HDInsight – Spark 클러스터 구성 (예시)
< HDInsight Spark 클러스터 구성 화면 >
< HDInsight Spark 클러스터 포탈 >
• 고객사 현황
On-Prem과 클라우드를 혼용하여 게임 로그 데이터 분석을 수행 중
Hadoop 환경에서 맵리듀스 어플리케이션 / 머신러닝 사용
고객사 로그 데이터 분석 현황
PoC 목표 (1/2)
(1) 로그 데이터 분석 인프라 운영 환경 개선
Apache Drill 및 Spark 적용으로 분석 성능 개선
 하둡 외 추가적인 분석 플랫폼 옵션 및 분석 시간 감소
분석 요건 및 데이터량에 따른 유연한 분석 인프라 환경 구축
 분석 요건에 따른 유연한 인프라 구성(scale-out/in)으로
분석 목표 시간 개선 및 비용 절감 (분당 사용량 기반 과금)
PoC 목표 (2/2)
(2) 쿼리 기반 로그 데이터 분석 환경 구축
사내 데이터 전문가들을 위한 쿼리 기반 로그 데이터 분석 환경 제공
DB 쿼리 환경에 익숙한 사내 데이터 전문가에게 로그 데이터 분석 환
경 제공하여 접근성 개선 및 이에 따른 분석 리드 타임 감소
Power BI / 엑셀 등을 활용한 현업 사용자 통계 분석 환경 제공
보고서 및 대시보드 지원 (시각화)
PoC 결과
1. 클러스터 내 데이터 노드 수 증가(스케일 아웃)에 따른 성능 개선
 저용량 데이터의 경우, 스케일 아웃에 따른 성능 효과는 없음 (HDFS small data issue)
 대용량 데이터의 경우(5번 쿼리), CPU 성능이 높아질 수록 처리 시간이 크게 개선됨
(D 시리즈 기준으로 8 Core 당 약 15% 처리 시간이 선형적으로 개선)
2. 스케일업과 스케일아웃에 따른 성능 비교
 총 Core 수가 동일한 경우, 스케일업과 스케일아웃 간의 성능 차이는 없음
(D12 v2 vs. D13 v2 vs. D14 v2 간 비교)
3. VM Type 중 A시리즈와 D시리즈와의 성능 비교
 A 시리즈와 D v2 시리즈 간의 가격 차이와 테스트 성능 결과 차이를 고려하면 D 시리즈가 비용 대비
효과적임
4. Parquet 파일 성능
 대용량 파일에 대한 쿼리 기준으로 최소 40배 (Spark) / 70배 (Drill) 이상의 성능 개선
 추가적인 ETL을 고려 필요 (PoC용 데이터 기준 31분)
성능 테스트 결과 요약
로그
DBA 및 현업 사용자 로그 분석 시나리오
현업 사용자
DBA SQL Client
Power BI
분석
엑셀 Power
Pivot 분석
SQL
Query
화면 개발
분석용
Query
1
2
3
* 향후 요건에 따라 RDBMS 적용 고려
• PoC 결과를 기초로 다음과 같은 To-Be 개선 방안을 제언 드립니다.
To-Be 개선 방안 제언 (1/2)
1. Managed 서비스 기반의 SQL on Hadoop 및 Parquet 파일 적용
 현행 로그 분석 시스템 개발 시, 간편한 SQL과 업무 로직 코드 조합을 통해 개발 생산성 향상
 분석 시간 감소 및 분단위 과금으로 비용 절감
 SQL on Hadoop 및 Partquet 파일을 활용한 데이터 분석 시간 감소
 분단위 과금 / 유연한 클러스터 운영 (Pay as you go, 스케일인/아웃, 클러스터 배포/삭제 스케쥴링)
 Managed 서비스 기반의 클러스터 운영으로 효율적인 관리 가능
 향후 업데이트된 클러스터 버전에 대한 간편한 적용
• PoC 결과를 기초로 다음과 같은 To-Be 개선 방안을 제언 드립니다.
To-Be 개선 방안 제언 (2/2)
2. 쿼리 기반 분석 환경 제공으로 로그 데이터 접근성 확대
 사내 전문가(DBA / 현업 전문가)의 로그 데이터 접근성 개선 및 이에 따른 분석 리드 타임 감소
 로그 데이터의 기본 분석 지원 부담은 감소시키고 고급 분석에 업무 집중 가능
3. 분석 결과에 대한 시각화(Visualization) 기능 강화
 보고서 및 대시보드를 활용하여 분석 결과를 편리하게 사내 공유
 외부 분석 서비스 제공 시, 효과적인 도구로 활용 가능
MS 빅데이터 서비스 및 게임사 PoC 사례 소개

More Related Content

What's hot

AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
Amazon Web Services Korea
 

What's hot (20)

CloudWatch 성능 모니터링과 신속한 대응을 위한 노하우 - 박선용 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming
CloudWatch 성능 모니터링과 신속한 대응을 위한 노하우 - 박선용 솔루션즈 아키텍트:: AWS Cloud Track 3 GamingCloudWatch 성능 모니터링과 신속한 대응을 위한 노하우 - 박선용 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming
CloudWatch 성능 모니터링과 신속한 대응을 위한 노하우 - 박선용 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming
 
인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템
 
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
 
AWS 클라우드 이해하기-사례 중심 (정민정) - AWS 웨비나 시리즈
AWS 클라우드 이해하기-사례 중심 (정민정) - AWS 웨비나 시리즈AWS 클라우드 이해하기-사례 중심 (정민정) - AWS 웨비나 시리즈
AWS 클라우드 이해하기-사례 중심 (정민정) - AWS 웨비나 시리즈
 
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
 
AWS를 활용하여 Daily Report 만들기 : 로그 수집부터 자동화된 분석까지
AWS를 활용하여 Daily Report 만들기 : 로그 수집부터 자동화된 분석까지AWS를 활용하여 Daily Report 만들기 : 로그 수집부터 자동화된 분석까지
AWS를 활용하여 Daily Report 만들기 : 로그 수집부터 자동화된 분석까지
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
 
Amazon Redshift로 데이터웨어하우스(DW) 구축하기
Amazon Redshift로 데이터웨어하우스(DW) 구축하기Amazon Redshift로 데이터웨어하우스(DW) 구축하기
Amazon Redshift로 데이터웨어하우스(DW) 구축하기
 
추천시스템 구축을 위한 빅데이터 분석기법과 사례
추천시스템 구축을 위한 빅데이터 분석기법과 사례추천시스템 구축을 위한 빅데이터 분석기법과 사례
추천시스템 구축을 위한 빅데이터 분석기법과 사례
 
Amazon Redshift의 이해와 활용 (김용우) - AWS DB Day
Amazon Redshift의 이해와 활용 (김용우) - AWS DB DayAmazon Redshift의 이해와 활용 (김용우) - AWS DB Day
Amazon Redshift의 이해와 활용 (김용우) - AWS DB Day
 
AWS 클라우드 서비스 소개 및 사례 (방희란) - AWS 101 세미나
AWS 클라우드 서비스 소개 및 사례 (방희란) - AWS 101 세미나AWS 클라우드 서비스 소개 및 사례 (방희란) - AWS 101 세미나
AWS 클라우드 서비스 소개 및 사례 (방희란) - AWS 101 세미나
 
취향기반의 개인화 서비스를 통한 이커머스 혁신 – 소성운 ZIGZAG 데이터사이언티스트, 강상원 마이셀럽스 대표:: AWS Cloud We...
취향기반의 개인화 서비스를 통한 이커머스 혁신 – 소성운 ZIGZAG 데이터사이언티스트, 강상원 마이셀럽스 대표:: AWS Cloud We...취향기반의 개인화 서비스를 통한 이커머스 혁신 – 소성운 ZIGZAG 데이터사이언티스트, 강상원 마이셀럽스 대표:: AWS Cloud We...
취향기반의 개인화 서비스를 통한 이커머스 혁신 – 소성운 ZIGZAG 데이터사이언티스트, 강상원 마이셀럽스 대표:: AWS Cloud We...
 
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1 나무기술(주) 최유석 20170912
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1  나무기술(주) 최유석 20170912Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1  나무기술(주) 최유석 20170912
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1 나무기술(주) 최유석 20170912
 
글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)
글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)
글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)
 
Aws glue를 통한 손쉬운 데이터 전처리 작업하기
Aws glue를 통한 손쉬운 데이터 전처리 작업하기Aws glue를 통한 손쉬운 데이터 전처리 작업하기
Aws glue를 통한 손쉬운 데이터 전처리 작업하기
 
클라우드 기반 데이터 분석 및 인공 지능을 위한 비지니스 혁신 - 윤석찬 (AWS 테크에반젤리스트)
클라우드 기반 데이터 분석 및 인공 지능을 위한 비지니스 혁신 - 윤석찬 (AWS 테크에반젤리스트)클라우드 기반 데이터 분석 및 인공 지능을 위한 비지니스 혁신 - 윤석찬 (AWS 테크에반젤리스트)
클라우드 기반 데이터 분석 및 인공 지능을 위한 비지니스 혁신 - 윤석찬 (AWS 테크에반젤리스트)
 
성장을 좋아하는 사람이, 성장하고 싶은 사람에게
성장을 좋아하는 사람이, 성장하고 싶은 사람에게성장을 좋아하는 사람이, 성장하고 싶은 사람에게
성장을 좋아하는 사람이, 성장하고 싶은 사람에게
 
[PYCON Korea 2018] Python Application Server for Recommender System
[PYCON Korea 2018] Python Application Server for Recommender System [PYCON Korea 2018] Python Application Server for Recommender System
[PYCON Korea 2018] Python Application Server for Recommender System
 
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
 
MongoDB Atlas Data Lake 집중 분석 [MongoDB]
MongoDB Atlas Data Lake 집중 분석 [MongoDB]MongoDB Atlas Data Lake 집중 분석 [MongoDB]
MongoDB Atlas Data Lake 집중 분석 [MongoDB]
 

Similar to MS 빅데이터 서비스 및 게임사 PoC 사례 소개

OCE - Cno 2014 private sector oriented open paas oce
OCE - Cno 2014 private sector oriented open paas   oceOCE - Cno 2014 private sector oriented open paas   oce
OCE - Cno 2014 private sector oriented open paas oce
uEngine Solutions
 
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
문기 박
 
Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가
Wooseung Kim
 
20160511 azure를 기반으로한 인공지능 io t 생태계 구축 전략
20160511 azure를 기반으로한 인공지능 io t 생태계 구축 전략20160511 azure를 기반으로한 인공지능 io t 생태계 구축 전략
20160511 azure를 기반으로한 인공지능 io t 생태계 구축 전략
영욱 김
 

Similar to MS 빅데이터 서비스 및 게임사 PoC 사례 소개 (20)

DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
 
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
 
OCE - Cno 2014 private sector oriented open paas oce
OCE - Cno 2014 private sector oriented open paas   oceOCE - Cno 2014 private sector oriented open paas   oce
OCE - Cno 2014 private sector oriented open paas oce
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
 
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
 
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판
 
Azure Databases for PostgreSQL MYSQL and MariaDB
Azure Databases for PostgreSQL MYSQL and MariaDBAzure Databases for PostgreSQL MYSQL and MariaDB
Azure Databases for PostgreSQL MYSQL and MariaDB
 
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
 
SiSense 사이센스 True Agile BI 솔루션
SiSense 사이센스 True Agile BI 솔루션SiSense 사이센스 True Agile BI 솔루션
SiSense 사이센스 True Agile BI 솔루션
 
[오픈소스컨설팅]유닉스의 리눅스 마이그레이션 전략_v3
[오픈소스컨설팅]유닉스의 리눅스 마이그레이션 전략_v3[오픈소스컨설팅]유닉스의 리눅스 마이그레이션 전략_v3
[오픈소스컨설팅]유닉스의 리눅스 마이그레이션 전략_v3
 
공간정보 대량맞춤화 정보지원체계 연구 소개
공간정보 대량맞춤화 정보지원체계 연구 소개공간정보 대량맞춤화 정보지원체계 연구 소개
공간정보 대량맞춤화 정보지원체계 연구 소개
 
All about Data Center Migration Session 1. <Case Study> 오비맥주 사례로 알아보는 DC 마이그레...
All about Data Center Migration Session 1. <Case Study> 오비맥주 사례로 알아보는 DC 마이그레...All about Data Center Migration Session 1. <Case Study> 오비맥주 사례로 알아보는 DC 마이그레...
All about Data Center Migration Session 1. <Case Study> 오비맥주 사례로 알아보는 DC 마이그레...
 
Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가
 
SQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouseSQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouse
 
2011 메타마이닝 회사소개서(최신)
2011 메타마이닝 회사소개서(최신)2011 메타마이닝 회사소개서(최신)
2011 메타마이닝 회사소개서(최신)
 
20160511 azure를 기반으로한 인공지능 io t 생태계 구축 전략
20160511 azure를 기반으로한 인공지능 io t 생태계 구축 전략20160511 azure를 기반으로한 인공지능 io t 생태계 구축 전략
20160511 azure를 기반으로한 인공지능 io t 생태계 구축 전략
 

More from I Goo Lee

More from I Goo Lee (20)

MySQL_Fabric_운영시유의사항
MySQL_Fabric_운영시유의사항MySQL_Fabric_운영시유의사항
MySQL_Fabric_운영시유의사항
 
MySQL Deep dive with FusionIO
MySQL Deep dive with FusionIOMySQL Deep dive with FusionIO
MySQL Deep dive with FusionIO
 
From MSSQL to MySQL
From MSSQL to MySQLFrom MSSQL to MySQL
From MSSQL to MySQL
 
From MSSQL to MariaDB
From MSSQL to MariaDBFrom MSSQL to MariaDB
From MSSQL to MariaDB
 
AWS Aurora 100% 활용하기
AWS Aurora 100% 활용하기AWS Aurora 100% 활용하기
AWS Aurora 100% 활용하기
 
Backup automation in KAKAO
Backup automation in KAKAO Backup automation in KAKAO
Backup automation in KAKAO
 
텔레그램을 이용한 양방향 모니터링 시스템 구축
텔레그램을 이용한 양방향 모니터링 시스템 구축텔레그램을 이용한 양방향 모니터링 시스템 구축
텔레그램을 이용한 양방향 모니터링 시스템 구축
 
Federated Engine 실무적용사례
Federated Engine 실무적용사례Federated Engine 실무적용사례
Federated Engine 실무적용사례
 
MySQL 상태 메시지 분석 및 활용
MySQL 상태 메시지 분석 및 활용MySQL 상태 메시지 분석 및 활용
MySQL 상태 메시지 분석 및 활용
 
MySQL 5.7 NF – Optimizer Improvement
 MySQL 5.7 NF – Optimizer Improvement MySQL 5.7 NF – Optimizer Improvement
MySQL 5.7 NF – Optimizer Improvement
 
MySQL 5.7 NF – JSON Datatype 활용
MySQL 5.7 NF – JSON Datatype 활용MySQL 5.7 NF – JSON Datatype 활용
MySQL 5.7 NF – JSON Datatype 활용
 
Intro KaKao MRTE (MySQL Realtime Traffic Emulator)
Intro KaKao MRTE (MySQL Realtime Traffic Emulator)Intro KaKao MRTE (MySQL Realtime Traffic Emulator)
Intro KaKao MRTE (MySQL Realtime Traffic Emulator)
 
AWS 환경에서 MySQL Infra 설계하기-2본론
AWS 환경에서 MySQL Infra 설계하기-2본론AWS 환경에서 MySQL Infra 설계하기-2본론
AWS 환경에서 MySQL Infra 설계하기-2본론
 
AWS 환경에서 MySQL Infra 설계하기-1도입부분
AWS 환경에서 MySQL Infra 설계하기-1도입부분AWS 환경에서 MySQL Infra 설계하기-1도입부분
AWS 환경에서 MySQL Infra 설계하기-1도입부분
 
AWS 환경에서 MySQL BMT
AWS 환경에서 MySQL BMTAWS 환경에서 MySQL BMT
AWS 환경에서 MySQL BMT
 
MySQL Slow Query log Monitoring using Beats & ELK
MySQL Slow Query log Monitoring using Beats & ELKMySQL Slow Query log Monitoring using Beats & ELK
MySQL Slow Query log Monitoring using Beats & ELK
 
MySQL Audit using Percona audit plugin and ELK
MySQL Audit using Percona audit plugin and ELKMySQL Audit using Percona audit plugin and ELK
MySQL Audit using Percona audit plugin and ELK
 
PostgreSQL 이야기
PostgreSQL 이야기PostgreSQL 이야기
PostgreSQL 이야기
 
Intro KaKao ADT (Almighty Data Transmitter)
Intro KaKao ADT (Almighty Data Transmitter)Intro KaKao ADT (Almighty Data Transmitter)
Intro KaKao ADT (Almighty Data Transmitter)
 
Binlog Servers 구축사례
Binlog Servers 구축사례Binlog Servers 구축사례
Binlog Servers 구축사례
 

MS 빅데이터 서비스 및 게임사 PoC 사례 소개

  • 1. MS 빅데이터 서비스 및 게임사 PoC 사례 소개 This content was developed prior to the product’s release to manufacturing, and as such, we cannot guarantee that all details included herein will be exactly as what is found in the shipping product. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information presented after the date of publication. The information represents the product at the time this document was printed and should be used for planning purposes only. Information subject to change at any time without prior notice.
  • 2.  빅데이터란 무엇인가?  Why?  Azure Managed 서비스 소개  PoC 목표  PoC 결과  To-Be 개선 방안 제언
  • 3. • 가트너의 정의 (2012년)  “빅 데이터는 큰 용량, 빠른 속도, 그리고(또는) 높은 다양성을 갖는 정보 자산으로서 이를 통해 의사 결정 및 통찰 발견, 프로세스 최적화를 향상시키기 위해서는 새로운 형태의 처리 방식이 필요하다.” • 빅데이터의 특징 -3 Vs of extreme scale  Volume : The data exceeds the physical limits of vertical scalability, implying a scale out solution  수직적 확장에 한계가 있는 대규모 데이터  Velocity : The decision window is small compared with the data change rate  데이터 빠른 변화로 의사 결정 시간이 매우 짧음  Variety : Many different formats make integration difficult and expensive  다양한 데이터 포맷으로 통합의 난이도 및 비용이 높음 빅데이터란 무엇인가?
  • 4. 빅데이터 유형 Big data Log files Data market feeds Text/image Click stream Wikis/blogs Sensors/RFID/ devices Social sentiment Web 2.0
  • 6. Machine Learning and Analytics (예시) Big Data as part of Cortana Intelligence Action People Automated Systems Apps Web Mobile Bots Intelligence Dashboards & Visualizations Cortana Bot Framework Cognitive Services Power BI Information Management Event Hubs Data Catalog Data Factory Intelligence Stream Analytics HDInsight (Hadoop & Spark) Big Data Stores Data Lake Store SQL Data Warehouse Data Sources Apps Sensors and devices Data Data Lake Analytics Machine Learning
  • 7. < Apache Hadoop Ecosystem > 아파치 하둡 에코 시스템과 Azure HDInsight Microsoft’s managed Hadoop as a Service 100% open source Apache Hadoop Built on the latest releases across Hadoop (2.6)  향후에도 빠르게 개선되고 있는 하둡 에코 시스템의 최신 버전 활용  검증된 배포판 Up and running in minutes with no hardware to deploy  필요한 시점에 바로 배포하여 사용 / Opex vs. Capex / 비용 절감 Hadoop Meets the Cloud
  • 9. HDInsight 지원 클러스터 유형 및 용도 HDInsight는 4가지 대표적인 아파치 빅데이터 플랫폼을 Managed 형태로 제공하는 MS의 빅데이터 서비스 (호튼웍스 배포판 기반) 1. Hadoop : 배치 2. HBase : NoSQL 3. Storm : 실시간 스트리밍 4. Spark : 배치 & 스트리밍 & 머신러닝
  • 10. HDInsight – Spark 클러스터 구성 (예시) < HDInsight Spark 클러스터 구성 화면 > < HDInsight Spark 클러스터 포탈 >
  • 11.
  • 12. • 고객사 현황 On-Prem과 클라우드를 혼용하여 게임 로그 데이터 분석을 수행 중 Hadoop 환경에서 맵리듀스 어플리케이션 / 머신러닝 사용 고객사 로그 데이터 분석 현황
  • 13. PoC 목표 (1/2) (1) 로그 데이터 분석 인프라 운영 환경 개선 Apache Drill 및 Spark 적용으로 분석 성능 개선  하둡 외 추가적인 분석 플랫폼 옵션 및 분석 시간 감소 분석 요건 및 데이터량에 따른 유연한 분석 인프라 환경 구축  분석 요건에 따른 유연한 인프라 구성(scale-out/in)으로 분석 목표 시간 개선 및 비용 절감 (분당 사용량 기반 과금)
  • 14. PoC 목표 (2/2) (2) 쿼리 기반 로그 데이터 분석 환경 구축 사내 데이터 전문가들을 위한 쿼리 기반 로그 데이터 분석 환경 제공 DB 쿼리 환경에 익숙한 사내 데이터 전문가에게 로그 데이터 분석 환 경 제공하여 접근성 개선 및 이에 따른 분석 리드 타임 감소 Power BI / 엑셀 등을 활용한 현업 사용자 통계 분석 환경 제공 보고서 및 대시보드 지원 (시각화)
  • 16. 1. 클러스터 내 데이터 노드 수 증가(스케일 아웃)에 따른 성능 개선  저용량 데이터의 경우, 스케일 아웃에 따른 성능 효과는 없음 (HDFS small data issue)  대용량 데이터의 경우(5번 쿼리), CPU 성능이 높아질 수록 처리 시간이 크게 개선됨 (D 시리즈 기준으로 8 Core 당 약 15% 처리 시간이 선형적으로 개선) 2. 스케일업과 스케일아웃에 따른 성능 비교  총 Core 수가 동일한 경우, 스케일업과 스케일아웃 간의 성능 차이는 없음 (D12 v2 vs. D13 v2 vs. D14 v2 간 비교) 3. VM Type 중 A시리즈와 D시리즈와의 성능 비교  A 시리즈와 D v2 시리즈 간의 가격 차이와 테스트 성능 결과 차이를 고려하면 D 시리즈가 비용 대비 효과적임 4. Parquet 파일 성능  대용량 파일에 대한 쿼리 기준으로 최소 40배 (Spark) / 70배 (Drill) 이상의 성능 개선  추가적인 ETL을 고려 필요 (PoC용 데이터 기준 31분) 성능 테스트 결과 요약
  • 17. 로그 DBA 및 현업 사용자 로그 분석 시나리오 현업 사용자 DBA SQL Client Power BI 분석 엑셀 Power Pivot 분석 SQL Query 화면 개발 분석용 Query 1 2 3 * 향후 요건에 따라 RDBMS 적용 고려
  • 18. • PoC 결과를 기초로 다음과 같은 To-Be 개선 방안을 제언 드립니다. To-Be 개선 방안 제언 (1/2) 1. Managed 서비스 기반의 SQL on Hadoop 및 Parquet 파일 적용  현행 로그 분석 시스템 개발 시, 간편한 SQL과 업무 로직 코드 조합을 통해 개발 생산성 향상  분석 시간 감소 및 분단위 과금으로 비용 절감  SQL on Hadoop 및 Partquet 파일을 활용한 데이터 분석 시간 감소  분단위 과금 / 유연한 클러스터 운영 (Pay as you go, 스케일인/아웃, 클러스터 배포/삭제 스케쥴링)  Managed 서비스 기반의 클러스터 운영으로 효율적인 관리 가능  향후 업데이트된 클러스터 버전에 대한 간편한 적용
  • 19. • PoC 결과를 기초로 다음과 같은 To-Be 개선 방안을 제언 드립니다. To-Be 개선 방안 제언 (2/2) 2. 쿼리 기반 분석 환경 제공으로 로그 데이터 접근성 확대  사내 전문가(DBA / 현업 전문가)의 로그 데이터 접근성 개선 및 이에 따른 분석 리드 타임 감소  로그 데이터의 기본 분석 지원 부담은 감소시키고 고급 분석에 업무 집중 가능 3. 분석 결과에 대한 시각화(Visualization) 기능 강화  보고서 및 대시보드를 활용하여 분석 결과를 편리하게 사내 공유  외부 분석 서비스 제공 시, 효과적인 도구로 활용 가능