1. AI를 쉽고 빠르게 할 수
있는 AutoML
- H2O Driverless AI
2020 1Q
권오윤 영업대표
010-4995-6649
(OyunKwon@kr.ibm.com)
2. Welcome to the Waitless World - 2 -
기업에서의 AI 채택에 대한 걸림돌
AI 전문 인력 부족
~100
Data science experts in the
world
Time for a data scientist to
build a model
Months
느린 개발 속도
Black box models
AI에 대한 신뢰 부족
“미국에서만도 분석 전문가의 인력 부족이 19만명에 달한다.”
“2024년이 되면 부족한 전문가는 25만명까지 늘어난다.”
Data is a Team Sport
3. Welcome to the Waitless World - 3 -
H2O.ai 회사 개요
Company Founded in Silicon Valley in 2012
Funded: Series D, Investors: Wells Fargo, NVIDIA, Nexus Ventures, Paxion
Ventures, Barclays, Goldman Sachs, Ping An Global
Products • H2O Open Source Machine Learning (18,000 organizations)
• H2O Driverless AI – Automatic Machine Learning
Leadership Leader in Gartner MQ Machine Learning and Data Science Platform
Team 170+ AI expertise (Kaggle Grandmasters/expert data scientists, Distributed
Computing, Visualization)
Global Mountain View, NYC, London, Prague, India, Singapore, France
4. Welcome to the Waitless World
AI와 ML의 선두주자인 H2O.ai
Gartner Machine Learning
and Data Science Platform
The Forrester Wave™:
Automation Solutions, Q2 2019
Top 3 Artificial Intelligence (AI)
and Machine Learning (ML)
Software Solution
"Excellent marks for product
roadmap and vision."
“The industry standard”
“Its vision of creating an AI
and ML tool that ultimately aims
to allow almost everyone within
the business to create their own
predictive models”
“H2O.ai’s future is automated
machine learning”
“…is best for companies that
want to delight data scientists”
5. Welcome to the Waitless World
Growing Worldwide H2O AI Community
18,000 Companies Using H2O
200,000 Data Scientists 120K Meetup Members
H2O World – NYC, London, SF
Thousands attending live and online
6.
7. Welcome to the Waitless World
AutoML이란?
Automated Machine Learning (AutoML) – 실제 사회에서 발생하는 다양한 문제들에 머신러닝을
적용하기 위한 모든 프로세스를 자동화 해주는 것을 의미
보통의 머신러닝 어플리케이션에서는 Data Scientist들이
1) 적절한 데이터의 전처리
2) 파생변수의 생성
3) 변수의 추출
4) 변수의 선택
등의 방법을 적용하여 데이터 셋을 수정한다.
이러한 전처리 과정을 통한 모델링 과정에서 Data Scientist들은
1) 적절한 알고리즘의 선택
2) 하이퍼 파라메터의 최적화를 수행하여 최종 머신러닝을 통해 만들어지는 모델에서 최적의
예측결과를 내도록 한다.
8. Welcome to the Waitless World
AI 모델 개발의 3가지 어려움
Basic Encoding
Feature Generation
Advanced Encoding
Talent: Feature Engineering
Algorithm Selection
Parameter Tuning
Time: Model Building
Model Ensembles
Pipeline Generation
Model Explainabilty
Trust: Model Deployment
Model Documentation
• 많은 시간 소요
• 고급 스킬 셋의 필요
• 특히 새로운 파생
변수의 생성은 높은
레벨의 스킬과 경험을
요구
• 많은 시간 소요
• 알고리즘과
파라메터등에 대한
고급의 지식이 필요함
• 모델을 Ensemble하는
것도 고급 스킬로
분류됨
• 많은 시간이 소요
• 모델을 Deploy하는데는 IT base의
스킬 셋이 필요
• 어떻게 예측 모델이 결정을 하게
되었는지 설명하는 것은
신뢰측면에서 매우 중요
(특히 의사결정권자들과 감사하는
입장에서)
이러한 전체의 프로세스는 수많은 반복이 필요하고 몇 주에서 몇 달까지 시간이 소요될 수 있습니다.
9. Welcome to the Waitless World
Driverless AI 는 기업에게 AI를 전달
Time
Time to Insight
Talent
Kaggle Grandmasters
Top 10
Data Science Experts
GPU Accelerated ML
Automatic Pipelines
Months
to Hours
Trust
Explainability
and Transparency
MLI
Auto Doc
Auto Visualization
10. Welcome to the Waitless World - 10 -
전형적인 machine learning의 workflow
“Data Scientist 영역”
반복적, 장시간 중노동
“IT 영역”
ETL, data cleaning, encoding, etc
“개발자 영역”
App coding 및
튜닝
Business
Prediction
11. Welcome to the Waitless World - 11 -
Data Science와 ML workflow의 자동화
H2O Driverless AI
“Feature engineering부터 app까지”
Business
Prediction
“IT 영역”
ETL, data cleaning, encoding, etc
12. Welcome to the Waitless World
H2O Driverless AI: “Expert Data Scientist in a Box”
SQL
Local
Amazon S3
HDFS
X Y
Automatic
Scoring Pipeline
Machine learning
설명
Deploy Low-
latency
Scoring to
Production
Modelling
Dataset
Model Recipes:
• i.i.d. Data
• Time-series
• NLP
• More on the way
Advanced
Feature
Engineering
Algorithm Model
Tuning
+ +
Survival of the Fittest
Automatic Machine Learning
데이터의 형태나
Outliers 혹은 빠진
자료등을 이해
Powered by GPU Acceleration
1
Drag and drop data
2
자동화된 시각화
Best practice model recipes와
CPU/GPU 연산능력을 이용하여,
진보된 feature engineering과
parameter tuning을 포함한
수천개의 가능성 있는 모델들에
걸쳐 반복 훈련
3
자동화된 Machine Learning
Feature transformation과
models를 포함한, low-latency
Python 또는 Java로 구현된
Automatic Scoring Pipelines를
deploy
4
자동화된 소스코드 생성
어디서든 데이터를
가져올 수 있음
(Local or Cloud)
Google BigQuery
Azure Blog Storage
Snowflake
Automatic Model
Documentation
5
BYOR – Scorer, Transformer, Model+
13. Welcome to the Waitless World
H2O Driverless AI의 주요 특장점
1. 자동화된 파생 변수 생성
2. 설명 가능한 Machine Learning (MLI)
3. TensorFlow를 이용한 자연어 분석 (NLP)
4. Time Series 데이터 분석
5. 자동화된 시각화
6. 자동화된 소스코드 생성
7. 자동화된 분석 문서 생성
8. NVIDIA GPU Acceleration
9. Bring-Your-Own Recipes (Customized ML)
14. Welcome to the Waitless World
장기적 관점에서의 H2O Driverless AI
다른 자동화된 ML 플랫폼과는
다르게 Driverless AI는 더
나은 비전과 아키텍쳐를
제시합니다.
은행, 보험, 생산라인 그리고
병원등의 사업의 업계를
선두하는 곳들에 의해
로드맵이 만들어 집니다.
더 많은 데이터를 다룰 수
있도록 디자인 되었으며,
어떤 데이터도 H2O플랫폼
위에서 사용 가능합니다.
하나의 ML 플랫폼으로 수많은 Data Scientist의 AI를 확장가능
Confidential and property of H2O.ai. All rights reserved
15. Welcome to the Waitless World - 15 -
신뢰와 규제 준수를 위한 업계 선두의 Interpretability
규제 뿐만 아니라
디버깅을 위해 필요한
Interpretability
사유 부호(reason
code)와 모델
interpretability를 영어
평문으로 생성
각 prediction에 대한
사유 부호 생성에 K-
Lime, LOCO, partial
dependence 등의
기술을 지원
16. Welcome to the Waitless World - 16 -
Low-latency Model들의 편리한 배치 활용
독립된 prediction program의 자동 생성
Python 및 Java로 된 “scoring-pipeline”
자동 생성
편리한 inferencing
새로운 model 생성시 편리한 update
복잡한 big data model에 대해 최적화된
scoring code
최말단 및 모바일 등 어떤 디바이스에서나
배치 가능한 간결한 scoring code
실시간 app을 만족시키는 millisecond
단위의 반응 속도
17. Welcome to the Waitless World - 17 -
H2O DriverlessAI : 손쉽고 직관적인 machine learning
18. Welcome to the Waitless World
AutoML: H2O DAI – 산업별 사례
시간절약, 비용절약, 경쟁적인 이점
Wholesale / Commercial
Banking
• 고객 분석 (KYC)
• 돈세탁 방지 (AML)
Card / Payments Business
• 사기 거래
• 공모 사기
• 실시간 분석
• 신용도 평가
Retail Banking
• 예금 사기
• 고객이탈 예측
• 자동 여신 평가
Financial Services
• 암 초기 진단
• 약품 추천
• 개인화된 처방 조치
• 의료 청구 사기 발견
• 독감 예측
• 불법 약물 처방 발견
• 응급초지 관련 관리
• 원격 환자 관리
• 임상실험 예측
Healthcare
• 관리 예측
• 고객 이탈 방지
• 고객데이터에 입각한 관리
• 원장 데이터 관리
• 지능적인 광고 추천
• 개인화된 프로그램 추천
Telecom
• 개인화된 광고
• 신용관리
• 사기 감지
• 최선의 추천
• 고객 관리
• 스마트 프로파일링
• 고객 행동 예측
• 고객에게 상품 추천
Marketing and Retail
20. Welcome to the Waitless World - 20 -
Use case : 금융 사기 탐지
Venkatesh Ramanathan
Senior Data Scientist, PayPal
Driverless AI는 10년
경력의 feature
engineering 전문가에
필적
사기 행위 탐지
정확도를 0.89에서
0.947로 6% 향상
H2O4GPU with
Driverless AI
사용으로 6배 속도
향상
“Driverless AI는
feature 및 모델 성능
측면에서 놀라운
결과를 만들어내고
있습니다.”
21. Welcome to the Waitless World - 21 -
Use case : 마케팅 최적화
“Driverless AI는 우리의
Intelligent Marketing Cloud
로 고객에게 접근하는데 큰
도움을 주었습니다. AI를 하기
위한 AI는 우리 시스템을
날마다 향상시켜 주고
있습니다.”
Martin Stein
Chief Product Officer
다른 부동산 디지털
마케팅 솔루션보다
2.5배 뛰어난 효과
한 G5 고객사는 연간
디지털 마케팅 비용
$500K를
절감하면서도 웹
트래픽을 3배로 늘림
10배 빠른 모델 생성
22. Welcome to the Waitless World - 22 -
Use case : 매출 예측 및 수급 관리
“H2O Driverless AI feature
engineering은 제가 본 것 중
최고입니다. 그리고 scoring
pipeline 생성은 제게는 아마
최고의 플러스입니다. 시간을
크게 줄여주었거든요.”
Robert Coop
Sr. Data Scientist
Stanley Black & Decker
1명의 data
scientist로 25% 시간
절약
제조 생산 라인을
위한 모델 튜닝과
훈련에 1달의 시간
단축
Forecast 정확성
향상을 통해 미래
고객 주문을 위한
필요 부품 및
원자재를 정확히 예측
23. Welcome to the Waitless World
$ head -n 2 creditcard_train.csv
"Time","V1","V2","V3","V4","V5","V6","V7","V8","V9","V10","V11","V12","V13","V14","V15","V16","V17","V18","V19","V20","V
21","V22","V23","V24","V25","V26","V27","V28","Amount","Class"
0,-1.3598071336738,-0.0727811733098497,2.53634673796914,1.37815522427443,-
0.338320769942518,0.462387777762292,0.239598554061257,0.0986979012610507,0.363786969611213,0.09079417197
89316,-0.551599533260813,-0.617800855762348,-0.991389847235408,-0.311169353699879,1.46817697209427,-
0.470400525259478,0.207971241929242,0.0257905801985591,0.403992960255733,0.251412098239705,-
0.018306777944153,0.277837575558899,-0.110473910188767,0.0669280749146731,0.128539358273528,-
0.189114843888824,0.133558376740387,-0.0210530534538215,149.62,"0"
H2O DAI를 이용한 credit card fraud detection 정확도
Data source : https://www.kaggle.com/mlg-ulb/creditcardfraud/home
Test 상세 : https://hwengineer.blogspot.com/2018/12/h2o-driverless-ai-kaggle-creditcard.html
Kaggle에서 제공되는 실제 신용카드 사기 dataset을 이용하여 H2O DAI의 실제 정확도 측정
전체 거래 (28만건 이상) 중 사기거래(Class=“1”)는 492건 (0.173%)
Test dataset 3천건 중 실제 사기거래는 4건 (row_num : 588, 871, 874, 921)
24. Welcome to the Waitless World
$ head -n 2 creditcard_train.csv
"Time","V1","V2","V3","V4","V5","V6","V7","V8","V9","V10","V11","V12","V13","V14","V15","V16","V17","V18","V19","V20","V
21","V22","V23","V24","V25","V26","V27","V28","Amount","Class"
0,-1.3598071336738,-0.0727811733098497,2.53634673796914,1.37815522427443,-
0.338320769942518,0.462387777762292,0.239598554061257,0.0986979012610507,0.363786969611213,0.09079417197
89316,-0.551599533260813,-0.617800855762348,-0.991389847235408,-0.311169353699879,1.46817697209427,-
0.470400525259478,0.207971241929242,0.0257905801985591,0.403992960255733,0.251412098239705,-
0.018306777944153,0.277837575558899,-0.110473910188767,0.0669280749146731,0.128539358273528,-
0.189114843888824,0.133558376740387,-0.0210530534538215,149.62,"0"
H2O DAI를 이용한 credit card fraud detection 정확도
Data source : https://www.kaggle.com/mlg-ulb/creditcardfraud/home
Test 상세 : https://hwengineer.blogspot.com/2018/12/h2o-driverless-ai-kaggle-creditcard.html
Kaggle에서 제공되는 실제 신용카드 사기 dataset을 이용하여 H2O DAI의 실제 정확도 측정
전체 거래 (28만건 이상) 중 사기거래(Class=“1”)는 492건 (0.173%)
Test dataset 3천건 중 실제 사기거래는 4건 (row_num : 588, 871, 874, 921)
25. Welcome to the Waitless World
H2O DAI를 이용한 제조업 관련 data 예측
Data source : https://www.kaggle.com/burakhmmtgl/predict-molecular-properties/home
Test 상세 : http://hwengineer.blogspot.com/2019/01/h2o-driverless.html
Kaggle에서 제공되는 실제 분자 구조 및 에너지 dataset을 이용하여 H2O DAI의 실제 정확도 측정
JSON format의 비정형 string을 자동 feature engineering을 통해 분석하여 분자 에너지 값을 예측
JSON 파일은 간단한 python code를 이용해 CSV로 전환
{
'En': 37.801,
'atoms': [
{'type': 'O', 'xyz': [0.3387, 0.9262, 0.46]},
{'type': 'O', 'xyz': [3.4786, -1.7069, -0.3119]},
{'type': 'N', 'xyz': [-2.2359, -0.7251, 0.027]},
{'type': 'C', 'xyz': [-0.7783, -1.1579, 0.0914]},
{'type': 'C', 'xyz': [0.1368, -0.0961, -0.5161]},
...
{'type': 'H', 'xyz': [1.5832, 2.901, 1.6404]}
],
'id': 1,
'shapeM': [259.66, 4.28, 3.04, 1.21, 1.75, 2.55,
0.16, -3.13, -0.22, -2.18, -0.56, 0.21, 0.17, 0.09]
}
26. Welcome to the Waitless World
H2O DAI를 이용한 개인별 매출액 예측
Data source : https://www.kaggle.com/mehdidag/black-friday/home
Kaggle에서 제공되는 실제 Black Friday 고객별 매출 dataset을 이용하여 H2O DAI의 실제 정확도 측정
6만6천건의 12개 칼럼 (고객의 직업, 거주지, 상품 카테고리 등)으로 구성된 dataset으로 매출액 예측
User_ID Product_ID Gender Age Occupation
City_
Category
Stay_In_
Current_City_Years
Marital_
Status
Product_
Category_1
Product_
Category_2
Product_
Category_3
Purchase
1001559 P0096442 M 36-45 8 A 1 0 4 5 12 1454
1001560 P00328442 F 26-35 3 B 2 0 5 14 6888
1001560 P00347642 F 26-35 3 B 2 0 1 6 3833
1001560 P00296042 F 26-35 3 B 2 0 8 13 16 4252
1001560 P00350942 F 26-35 3 B 2 0 3 4 5 13378
1001560 P00090942 F 26-35 3 B 2 0 1 2 14 19442
1001560 P00262442 F 26-35 3 B 2 0 4 5 2173
27. Welcome to the Waitless World
H2O DAI를 이용한 개인별 매출액 예측
Data source : https://www.kaggle.com/mehdidag/black-friday/home
Kaggle에서 제공되는 실제 Black Friday 고객별 매출 dataset을 이용하여 H2O DAI의 실제 정확도 측정
6만6천건의 12개 칼럼 (고객의 직업, 거주지, 상품 카테고리 등)으로 구성된 dataset으로 매출액 예측
User_ID Product_ID Gender Age Occupation
City_
Category
Stay_In_
Current_City_Years
Marital_
Status
Product_
Category_1
Product_
Category_2
Product_
Category_3
Purchase
1001559 P0096442 M 36-45 8 A 1 0 4 5 12 1454
1001560 P00328442 F 26-35 3 B 2 0 5 14 6888
1001560 P00347642 F 26-35 3 B 2 0 1 6 3833
1001560 P00296042 F 26-35 3 B 2 0 8 13 16 4252
1001560 P00350942 F 26-35 3 B 2 0 3 4 5 13378
1001560 P00090942 F 26-35 3 B 2 0 1 2 14 19442
1001560 P00262442 F 26-35 3 B 2 0 4 5 2173
28. Welcome to the Waitless World - 28 -
H2O DriverlessAI : PayPal에서도 IBM GPU 서버를 사용
Source : https://youtu.be/r9S3xchrzlY
29. Welcome to the Waitless World - 29 -
Why H2O Driverless AI on IBM AC922 ?
High Speed Data Transfer
9.5x
Big Data Scale
2.6xMore RAM Max I/O bandwidth
30x
GPU Accelerated ML
NVLink와 PCIe Gen4를 탑재한 POWER9 프로세서
Faster on GPUs
High Speed Data Transfer
1.5x
Big Data Scale
2xData Ingest Feature Engineering
5x
GPU Accelerated ML
Time Series
30. Welcome to the Waitless World - 30 -
H2O DriverlessAI의 CPU 및 GPU 사용 형태
Fri Oct 5 03:36:45 2018
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 396.26 Driver Version: 396.26 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla P100-SXM2... On | 00000002:01:00.0 Off | 0 |
| N/A 34C P0 64W / 300W | 455MiB / 16280MiB | 40% Default |
+-------------------------------+----------------------+----------------------+
| 1 Tesla P100-SXM2... On | 00000003:01:00.0 Off | 0 |
| N/A 36C P0 77W / 300W | 455MiB / 16280MiB | 38% Default |
+-------------------------------+----------------------+----------------------+
| 2 Tesla P100-SXM2... On | 0000000A:01:00.0 Off | 0 |
| N/A 32C P0 71W / 300W | 455MiB / 16280MiB | 40% Default |
+-------------------------------+----------------------+----------------------+
| 3 Tesla P100-SXM2... On | 0000000B:01:00.0 Off | 0 |
| N/A 36C P0 64W / 300W | 455MiB / 16280MiB | 38% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| 0 94004 C ...el-running(prot=False)-XGBoostModel-fit 445MiB |
| 1 94011 C ...el-running(prot=False)-XGBoostModel-fit 445MiB |
| 2 94044 C ...el-running(prot=False)-XGBoostModel-fit 445MiB |
| 3 94126 C ...el-running(prot=False)-XGBoostModel-fit 445MiB |
+-----------------------------------------------------------------------------+
H2O DAI의 병목은 GPU 성능이나 GPU 메모리가 아니라 연결 대역폭
31. Welcome to the Waitless World - 31 -
1개 brick의 NVLink 만으로는 불충분
H2O DAI의 뛰어난
multi-GPU 활용
100GB/s를 훨씬
초과하는 대역폭
필요
x86 GPU 서버에서는
1개 brick의
NVLink만을 사용
50GB/s에 불과
AC922 서버에서는
3개 brick의 NVLink를
1개로 통합
150GB/s
DtoD는 물론,
HtoD/DtoH도 동일
32. Welcome to the Waitless World
NVLink 아키텍처의 비교
• CPU와 GPU간은 PCIe로 연결 (32GB/sec)
• 4개 GPU끼리 NVLink * 1 link로 연결 (50GB/sec)
• 다른 socket의 GPU 4개와의 연결은 2-hop 구조
• CPU와 GPU간을 NVLink * 3 link로 연결 (150GB/sec)
• 2개 GPU끼리 NVLink * 3 link로 연결 (150GB/sec)
• 다른 socket의 GPU 2개와의 연결은 64GB/s(4 byte *
16GHz)의 SMP X bus로 연결
CPU-GPU 간의 NVLink, 그리고 NVLink *3 = 150 GB/sec가 AC922의 특장점
POWER9
GPUGPU NVLink
150 GB/s
50 GB/s
50 GB/s
32 GB/s 32 GB/s
x86 GPU AC922
64 GB/s
POWER9
GPUGPU NVLink
150 GB/s