고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS Cloud Week - Industry Edition
13 de Nov de 2020•0 gostou•706 visualizações
Baixar para ler offline
Denunciar
Tecnologia
AWS의 빅데이터 서비스들이 데이터 파이프라인 상에서 어떻게 활용 되는지와 데이터 모델링과 플랫폼 구축을 100% 내재화 하여 AWS와 함께 고객기반 서비스의 경쟁력을 강화 해나가는 고객 사례를 전해 드립니다. 국내 뷰티산업을 리딩 하고 있는 아모레퍼시픽에서 온/오프라인 고객 정보를 AWS 기반의 Data Lake로 통합 하고 고객 관점의 데이터 서비스를 출시 하는데 속도를 높이고 있는 성공 스토리를 직접 전해 드립니다.
5. 빅데이터로 얻은 통찰력으로 뭘 할 수 있을까요?
소비자의 여정 끊임없는 경험 추구 효과적인 마켓팅
캠페인
제품 & 판매 예측
개인화된 경험
제품 출시 새로운 소비자
수요에 대응하기
위한 틈새시장
채널 별 제품 모음
6. 리테일의 도전과제를 해결하기 위해서는…
• 소비자의 86% 가
온라인과 오프라인으로
전환하여 원활한 경험을
기대하고 있습니다.
• 매장, 웹, 타사
플랫폼에서는 채널
전반에서 일관된
메시징을 유지하는 것이
복잡할 수 있습니다.
• 여러 채널에서 신뢰할 수
있고 균일하게 데이터를
수집하는 것은 까다로울
수 있습니다.
고객 경험 데이터의 사일로소비자를 변화시키기 개인화된 경험
• 소비자의 53%
가로드하는 데 3 초 이상
걸리는 모바일 사이트를
포기합니다.
• 너무 많은 선택지는
혼란을 일으키고
소비자를 좌절시킵니다
• 구독 서비스는 소비자의
86% 가 자신의 경험에
더 만족하게 됨에 따라
행동을 변화시킵니다
• 밀레니얼 세대는 지속
가능성, 소싱 및 사회적
책임에 중점을 둔 제품에
의지하고 있습니다
• 연결되지 않는 데이터는
소비자와 멀어집니다.
• 사일로화 된 마케팅은
소비자에게 부정적인
영향을 미칠 수 있습니다.
• 리테일 사업자는 소비자
정보가 포함된 시스템을
평균 16개를 가지고
있습니다.
• 소비자의 63% 는
개인화된 서비스를
표준으로 삼습니다.
• 리테일 사업자 중
72% 가 개인화와
개인 정보 보호 간의
균형을 유지에
만족하지 못함
멀티 채널에서 구매
7. 빅데이터에 대한 어려움들
무엇 때문에 빅데이터를 활용하기 어렵나요?
낮은 데이터 품질 통일된 관점의 부재낮은 데이터 접근성
51%
의 리테일 사업자가
소비자에 대한 통일된
관점을 갖고 있지 못합니다.
51%
의 리테일 사업자가
시스템간 데이터 공유를
못하고 있습니다.
1 - SAP – Real-time Analytics: The Path to Intelligent Retailing
2 - The Retailers Guide to Big Data
올바른 플랫폼이 없으면 데이터에서 인사이트를 도출하기 어렵습니다
88%
의 리테일 사업자가 데이터
활용에 문제를 겪고
있습니다.
8. Data Lake 를 도입하여 큰 효과를 얻을 수 있습니다
소비자에 대한 데이터의 증가 매출 증가 멀티채널 판매
66%
의 리테일 사업자가
소비자에 대한 중요한
데이터 확보
64%
의 사업자가 매출 증가
54%
의 리테일 사업자가
멀티채널 판매량이 증가
올바른 플랫폼이 없으면 데이터에서 인사이트를 도출하기 어렵습니다
1 - Retail & The Big Data Revolution by the Economist Intelligence Unit
9. 많은 리테일 사업자들이
Data Lake 아키텍처를 도입 중입니다
DW 아키텍처를 확장하고 발전
모든 형태의 데이터를 저장
고가용성 & 고내구성 & 엑사바이트로 확장
보안, 컴플라이언스, 감사
DW에서 예측에 이르는 모든 유형의 분석 실행
데이터 웨어하우징 분석 머신러닝
Data lake
10. 데이터 사일로 에서
OLTP ERP CRM LOB
DW 사일로 1
Business
Intelligence
디바이스 웹 센서 소셜
DW 사일로 2
Business
Intelligence
머신러닝
BI +
분석
데이터
웨어하우징
Data Lake
오픈 포맷
중앙집중화된 카탈로그
기존의 데이터 웨어하우스는 확장할 수 없습니다
15. 소비자 & 운영
데이터
소비자 & 운영
통찰력
모든 유형의 데이터를 수집할 수 있는 유연성
• 데이터에서 통찰력을 얻기 위해서는 모든 유형의 데이터를 수집할 수 있어야 합니다.
• 히스토리 성 데이터, 이커머스, 제품 수요예측,, OMS, ERP, WMS, 소셜, 날씨, Web, IoT, …
모든 데이터를 위한 단일 홈, 사일로가 없음!
• 분석가들은 인사이트와 차세대 오퍼링을 구축하기 위해 사용 가능한 모든 기업 및 운영
데이터에 액세스할 수 있는 단일 장소가 필요합니다.
모든 작업에 적합한 분석 도구
• 현재 데이터 웨어하우스에 대한 기본 SQL 쿼리에서 미래의 예측 통찰력을 위한 머신 러닝에
이르기까지 모든 종류의 분석 지원해야합니다.
내부 및 외부 어플리케이션에 연결
• 분석 통찰력은 내부 BI 시각화 프로그램에서 상용 추천 앱까지 모든 것을 원활하게 제공해야
합니다.
1
2
3
4
리테일에 필요한 Data Lake는 어떤 것일까요?
21. Assemble
Big Data Platform Team
2019.04.01
빅데이터플랫폼팀 신설
2019.08.23
첫 Source Commit
2020.02
전사실적 대시보드 서비스 오픈
2020.05
Report 서비스 오픈
2020.09
Customer Explorer 서비스 오픈
One
Team
27. With EMR …
AWS EMR Master 에 고정 IP 할당
고정 IP 를 할당하여 단일 EMR 구축 ( 24/7 운용 )
EMR Cluster static ip 설정 방법을 통해 working time 에만
운용 ( 비용 절감 )
ec2:AssignPrivateIpAddresses 퍼미션 필요
초기 : 사용자별 Cluster 생성
단일 Cluster 사용 -> 고정 IP 이용 -> static IP 적용
AWS
Glue
Amazon
EMR
AWS
Glue
Amazon
EMR
AWS
Glue
Amazon
EMR
AWS Glue
Amazon EMR
User
User
User
User
User
User
32. Spark SQL Job
SQL Tuning & Tips.
query1 =“ select a.id, sum(b.cnt) from 브랜드 a, 실적 b where a.id=b.id group by a.id “
var cacheTable1 = spark.sql( query1 ) // cache #1
cacheTable1. createOrReplaceTempView(“cacheTable1”)
query2 =“ select a.id, sum(b.cnt) from 브랜드 a, 매출 b where a.id=b.id group by a.id“
var cacheTable2 = spark.sql( query ) // cache #2
cacheTable2. createOrReplaceTempView(“cacheTable2”)
mainQuery = “select id, sum(cnt) from cacheTable1 a, cacheTable2 b where …. ”)
var mainQueryDf = spark.sql(mainQuery)
mainQueryDf.write.partitionBy(“id”).mode(Append).parquet(s3path)
1. Spark SQL Hint 사용 (spark.2.2 이상 )
2. Distribute by , cluster by 등 사용
3. 적절한 coalesce , repartition
4. Outer join 시 skewness 회피를 위한 query 문 검토