SlideShare uma empresa Scribd logo
1 de 33
Baixar para ler offline
AI를 쉽고 빠르게 할 수
있는 AutoML
- H2O Driverless AI
2020 1Q
권오윤 영업대표
010-4995-6649
(OyunKwon@kr.ibm.com)
Welcome to the Waitless World - 2 -
기업에서의 AI 채택에 대한 걸림돌
AI 전문 인력 부족
~100
Data science experts in the
world
Time for a data scientist to
build a model
Months
느린 개발 속도
Black box models
AI에 대한 신뢰 부족
“미국에서만도 분석 전문가의 인력 부족이 19만명에 달한다.”
“2024년이 되면 부족한 전문가는 25만명까지 늘어난다.”
Data is a Team Sport
Welcome to the Waitless World - 3 -
H2O.ai 회사 개요
Company Founded in Silicon Valley in 2012
Funded: Series D, Investors: Wells Fargo, NVIDIA, Nexus Ventures, Paxion
Ventures, Barclays, Goldman Sachs, Ping An Global
Products • H2O Open Source Machine Learning (18,000 organizations)
• H2O Driverless AI – Automatic Machine Learning
Leadership Leader in Gartner MQ Machine Learning and Data Science Platform
Team 170+ AI expertise (Kaggle Grandmasters/expert data scientists, Distributed
Computing, Visualization)
Global Mountain View, NYC, London, Prague, India, Singapore, France
Welcome to the Waitless World
AI와 ML의 선두주자인 H2O.ai
Gartner Machine Learning
and Data Science Platform
The Forrester Wave™:
Automation Solutions, Q2 2019
Top 3 Artificial Intelligence (AI)
and Machine Learning (ML)
Software Solution
"Excellent marks for product
roadmap and vision."
“The industry standard”
“Its vision of creating an AI
and ML tool that ultimately aims
to allow almost everyone within
the business to create their own
predictive models”
“H2O.ai’s future is automated
machine learning”
“…is best for companies that
want to delight data scientists”
Welcome to the Waitless World
Growing Worldwide H2O AI Community
18,000 Companies Using H2O
200,000 Data Scientists 120K Meetup Members
H2O World – NYC, London, SF
Thousands attending live and online
Welcome to the Waitless World
AutoML이란?
Automated Machine Learning (AutoML) – 실제 사회에서 발생하는 다양한 문제들에 머신러닝을
적용하기 위한 모든 프로세스를 자동화 해주는 것을 의미
보통의 머신러닝 어플리케이션에서는 Data Scientist들이
1) 적절한 데이터의 전처리
2) 파생변수의 생성
3) 변수의 추출
4) 변수의 선택
등의 방법을 적용하여 데이터 셋을 수정한다.
이러한 전처리 과정을 통한 모델링 과정에서 Data Scientist들은
1) 적절한 알고리즘의 선택
2) 하이퍼 파라메터의 최적화를 수행하여 최종 머신러닝을 통해 만들어지는 모델에서 최적의
예측결과를 내도록 한다.
Welcome to the Waitless World
AI 모델 개발의 3가지 어려움
Basic Encoding
Feature Generation
Advanced Encoding
Talent: Feature Engineering
Algorithm Selection
Parameter Tuning
Time: Model Building
Model Ensembles
Pipeline Generation
Model Explainabilty
Trust: Model Deployment
Model Documentation
• 많은 시간 소요
• 고급 스킬 셋의 필요
• 특히 새로운 파생
변수의 생성은 높은
레벨의 스킬과 경험을
요구
• 많은 시간 소요
• 알고리즘과
파라메터등에 대한
고급의 지식이 필요함
• 모델을 Ensemble하는
것도 고급 스킬로
분류됨
• 많은 시간이 소요
• 모델을 Deploy하는데는 IT base의
스킬 셋이 필요
• 어떻게 예측 모델이 결정을 하게
되었는지 설명하는 것은
신뢰측면에서 매우 중요
(특히 의사결정권자들과 감사하는
입장에서)
이러한 전체의 프로세스는 수많은 반복이 필요하고 몇 주에서 몇 달까지 시간이 소요될 수 있습니다.
Welcome to the Waitless World
Driverless AI 는 기업에게 AI를 전달
Time
Time to Insight
Talent
Kaggle Grandmasters
Top 10
Data Science Experts
GPU Accelerated ML
Automatic Pipelines
Months
to Hours
Trust
Explainability
and Transparency
MLI
Auto Doc
Auto Visualization
Welcome to the Waitless World - 10 -
전형적인 machine learning의 workflow
“Data Scientist 영역”
반복적, 장시간 중노동
“IT 영역”
ETL, data cleaning, encoding, etc
“개발자 영역”
App coding 및
튜닝
Business
Prediction
Welcome to the Waitless World - 11 -
Data Science와 ML workflow의 자동화
H2O Driverless AI
“Feature engineering부터 app까지”
Business
Prediction
“IT 영역”
ETL, data cleaning, encoding, etc
Welcome to the Waitless World
H2O Driverless AI: “Expert Data Scientist in a Box”
SQL
Local
Amazon S3
HDFS
X Y
Automatic
Scoring Pipeline
Machine learning
설명
Deploy Low-
latency
Scoring to
Production
Modelling
Dataset
Model Recipes:
• i.i.d. Data
• Time-series
• NLP
• More on the way
Advanced
Feature
Engineering
Algorithm Model
Tuning
+ +
Survival of the Fittest
Automatic Machine Learning
데이터의 형태나
Outliers 혹은 빠진
자료등을 이해
Powered by GPU Acceleration
1
Drag and drop data
2
자동화된 시각화
Best practice model recipes와
CPU/GPU 연산능력을 이용하여,
진보된 feature engineering과
parameter tuning을 포함한
수천개의 가능성 있는 모델들에
걸쳐 반복 훈련
3
자동화된 Machine Learning
Feature transformation과
models를 포함한, low-latency
Python 또는 Java로 구현된
Automatic Scoring Pipelines를
deploy
4
자동화된 소스코드 생성
어디서든 데이터를
가져올 수 있음
(Local or Cloud)
Google BigQuery
Azure Blog Storage
Snowflake
Automatic Model
Documentation
5
BYOR – Scorer, Transformer, Model+
Welcome to the Waitless World
H2O Driverless AI의 주요 특장점
1. 자동화된 파생 변수 생성
2. 설명 가능한 Machine Learning (MLI)
3. TensorFlow를 이용한 자연어 분석 (NLP)
4. Time Series 데이터 분석
5. 자동화된 시각화
6. 자동화된 소스코드 생성
7. 자동화된 분석 문서 생성
8. NVIDIA GPU Acceleration
9. Bring-Your-Own Recipes (Customized ML)
Welcome to the Waitless World
장기적 관점에서의 H2O Driverless AI
다른 자동화된 ML 플랫폼과는
다르게 Driverless AI는 더
나은 비전과 아키텍쳐를
제시합니다.
은행, 보험, 생산라인 그리고
병원등의 사업의 업계를
선두하는 곳들에 의해
로드맵이 만들어 집니다.
더 많은 데이터를 다룰 수
있도록 디자인 되었으며,
어떤 데이터도 H2O플랫폼
위에서 사용 가능합니다.
하나의 ML 플랫폼으로 수많은 Data Scientist의 AI를 확장가능
Confidential and property of H2O.ai. All rights reserved
Welcome to the Waitless World - 15 -
신뢰와 규제 준수를 위한 업계 선두의 Interpretability
 규제 뿐만 아니라
디버깅을 위해 필요한
Interpretability
 사유 부호(reason
code)와 모델
interpretability를 영어
평문으로 생성
 각 prediction에 대한
사유 부호 생성에 K-
Lime, LOCO, partial
dependence 등의
기술을 지원
Welcome to the Waitless World - 16 -
Low-latency Model들의 편리한 배치 활용
 독립된 prediction program의 자동 생성
 Python 및 Java로 된 “scoring-pipeline”
자동 생성
 편리한 inferencing
 새로운 model 생성시 편리한 update
 복잡한 big data model에 대해 최적화된
scoring code
 최말단 및 모바일 등 어떤 디바이스에서나
배치 가능한 간결한 scoring code
 실시간 app을 만족시키는 millisecond
단위의 반응 속도
Welcome to the Waitless World - 17 -
H2O DriverlessAI : 손쉽고 직관적인 machine learning
Welcome to the Waitless World
AutoML: H2O DAI – 산업별 사례
시간절약, 비용절약, 경쟁적인 이점
Wholesale / Commercial
Banking
• 고객 분석 (KYC)
• 돈세탁 방지 (AML)
Card / Payments Business
• 사기 거래
• 공모 사기
• 실시간 분석
• 신용도 평가
Retail Banking
• 예금 사기
• 고객이탈 예측
• 자동 여신 평가
Financial Services
• 암 초기 진단
• 약품 추천
• 개인화된 처방 조치
• 의료 청구 사기 발견
• 독감 예측
• 불법 약물 처방 발견
• 응급초지 관련 관리
• 원격 환자 관리
• 임상실험 예측
Healthcare
• 관리 예측
• 고객 이탈 방지
• 고객데이터에 입각한 관리
• 원장 데이터 관리
• 지능적인 광고 추천
• 개인화된 프로그램 추천
Telecom
• 개인화된 광고
• 신용관리
• 사기 감지
• 최선의 추천
• 고객 관리
• 스마트 프로파일링
• 고객 행동 예측
• 고객에게 상품 추천
Marketing and Retail
Welcome to the Waitless World - 19 -
Welcome to the Waitless World - 20 -
Use case : 금융 사기 탐지
Venkatesh Ramanathan
Senior Data Scientist, PayPal
 Driverless AI는 10년
경력의 feature
engineering 전문가에
필적
 사기 행위 탐지
정확도를 0.89에서
0.947로 6% 향상
 H2O4GPU with
Driverless AI
사용으로 6배 속도
향상
“Driverless AI는
feature 및 모델 성능
측면에서 놀라운
결과를 만들어내고
있습니다.”
Welcome to the Waitless World - 21 -
Use case : 마케팅 최적화
“Driverless AI는 우리의
Intelligent Marketing Cloud
로 고객에게 접근하는데 큰
도움을 주었습니다. AI를 하기
위한 AI는 우리 시스템을
날마다 향상시켜 주고
있습니다.”
Martin Stein
Chief Product Officer
 다른 부동산 디지털
마케팅 솔루션보다
2.5배 뛰어난 효과
 한 G5 고객사는 연간
디지털 마케팅 비용
$500K를
절감하면서도 웹
트래픽을 3배로 늘림
 10배 빠른 모델 생성
Welcome to the Waitless World - 22 -
Use case : 매출 예측 및 수급 관리
“H2O Driverless AI feature
engineering은 제가 본 것 중
최고입니다. 그리고 scoring
pipeline 생성은 제게는 아마
최고의 플러스입니다. 시간을
크게 줄여주었거든요.”
Robert Coop
Sr. Data Scientist
Stanley Black & Decker
 1명의 data
scientist로 25% 시간
절약
 제조 생산 라인을
위한 모델 튜닝과
훈련에 1달의 시간
단축
 Forecast 정확성
향상을 통해 미래
고객 주문을 위한
필요 부품 및
원자재를 정확히 예측
Welcome to the Waitless World
$ head -n 2 creditcard_train.csv
"Time","V1","V2","V3","V4","V5","V6","V7","V8","V9","V10","V11","V12","V13","V14","V15","V16","V17","V18","V19","V20","V
21","V22","V23","V24","V25","V26","V27","V28","Amount","Class"
0,-1.3598071336738,-0.0727811733098497,2.53634673796914,1.37815522427443,-
0.338320769942518,0.462387777762292,0.239598554061257,0.0986979012610507,0.363786969611213,0.09079417197
89316,-0.551599533260813,-0.617800855762348,-0.991389847235408,-0.311169353699879,1.46817697209427,-
0.470400525259478,0.207971241929242,0.0257905801985591,0.403992960255733,0.251412098239705,-
0.018306777944153,0.277837575558899,-0.110473910188767,0.0669280749146731,0.128539358273528,-
0.189114843888824,0.133558376740387,-0.0210530534538215,149.62,"0"
H2O DAI를 이용한 credit card fraud detection 정확도
Data source : https://www.kaggle.com/mlg-ulb/creditcardfraud/home
Test 상세 : https://hwengineer.blogspot.com/2018/12/h2o-driverless-ai-kaggle-creditcard.html
 Kaggle에서 제공되는 실제 신용카드 사기 dataset을 이용하여 H2O DAI의 실제 정확도 측정
 전체 거래 (28만건 이상) 중 사기거래(Class=“1”)는 492건 (0.173%)
 Test dataset 3천건 중 실제 사기거래는 4건 (row_num : 588, 871, 874, 921)
Welcome to the Waitless World
$ head -n 2 creditcard_train.csv
"Time","V1","V2","V3","V4","V5","V6","V7","V8","V9","V10","V11","V12","V13","V14","V15","V16","V17","V18","V19","V20","V
21","V22","V23","V24","V25","V26","V27","V28","Amount","Class"
0,-1.3598071336738,-0.0727811733098497,2.53634673796914,1.37815522427443,-
0.338320769942518,0.462387777762292,0.239598554061257,0.0986979012610507,0.363786969611213,0.09079417197
89316,-0.551599533260813,-0.617800855762348,-0.991389847235408,-0.311169353699879,1.46817697209427,-
0.470400525259478,0.207971241929242,0.0257905801985591,0.403992960255733,0.251412098239705,-
0.018306777944153,0.277837575558899,-0.110473910188767,0.0669280749146731,0.128539358273528,-
0.189114843888824,0.133558376740387,-0.0210530534538215,149.62,"0"
H2O DAI를 이용한 credit card fraud detection 정확도
Data source : https://www.kaggle.com/mlg-ulb/creditcardfraud/home
Test 상세 : https://hwengineer.blogspot.com/2018/12/h2o-driverless-ai-kaggle-creditcard.html
 Kaggle에서 제공되는 실제 신용카드 사기 dataset을 이용하여 H2O DAI의 실제 정확도 측정
 전체 거래 (28만건 이상) 중 사기거래(Class=“1”)는 492건 (0.173%)
 Test dataset 3천건 중 실제 사기거래는 4건 (row_num : 588, 871, 874, 921)
Welcome to the Waitless World
H2O DAI를 이용한 제조업 관련 data 예측
Data source : https://www.kaggle.com/burakhmmtgl/predict-molecular-properties/home
Test 상세 : http://hwengineer.blogspot.com/2019/01/h2o-driverless.html
 Kaggle에서 제공되는 실제 분자 구조 및 에너지 dataset을 이용하여 H2O DAI의 실제 정확도 측정
 JSON format의 비정형 string을 자동 feature engineering을 통해 분석하여 분자 에너지 값을 예측
 JSON 파일은 간단한 python code를 이용해 CSV로 전환
{
'En': 37.801,
'atoms': [
{'type': 'O', 'xyz': [0.3387, 0.9262, 0.46]},
{'type': 'O', 'xyz': [3.4786, -1.7069, -0.3119]},
{'type': 'N', 'xyz': [-2.2359, -0.7251, 0.027]},
{'type': 'C', 'xyz': [-0.7783, -1.1579, 0.0914]},
{'type': 'C', 'xyz': [0.1368, -0.0961, -0.5161]},
...
{'type': 'H', 'xyz': [1.5832, 2.901, 1.6404]}
],
'id': 1,
'shapeM': [259.66, 4.28, 3.04, 1.21, 1.75, 2.55,
0.16, -3.13, -0.22, -2.18, -0.56, 0.21, 0.17, 0.09]
}
Welcome to the Waitless World
H2O DAI를 이용한 개인별 매출액 예측
Data source : https://www.kaggle.com/mehdidag/black-friday/home
 Kaggle에서 제공되는 실제 Black Friday 고객별 매출 dataset을 이용하여 H2O DAI의 실제 정확도 측정
 6만6천건의 12개 칼럼 (고객의 직업, 거주지, 상품 카테고리 등)으로 구성된 dataset으로 매출액 예측
User_ID Product_ID Gender Age Occupation
City_
Category
Stay_In_
Current_City_Years
Marital_
Status
Product_
Category_1
Product_
Category_2
Product_
Category_3
Purchase
1001559 P0096442 M 36-45 8 A 1 0 4 5 12 1454
1001560 P00328442 F 26-35 3 B 2 0 5 14 6888
1001560 P00347642 F 26-35 3 B 2 0 1 6 3833
1001560 P00296042 F 26-35 3 B 2 0 8 13 16 4252
1001560 P00350942 F 26-35 3 B 2 0 3 4 5 13378
1001560 P00090942 F 26-35 3 B 2 0 1 2 14 19442
1001560 P00262442 F 26-35 3 B 2 0 4 5 2173
Welcome to the Waitless World
H2O DAI를 이용한 개인별 매출액 예측
Data source : https://www.kaggle.com/mehdidag/black-friday/home
 Kaggle에서 제공되는 실제 Black Friday 고객별 매출 dataset을 이용하여 H2O DAI의 실제 정확도 측정
 6만6천건의 12개 칼럼 (고객의 직업, 거주지, 상품 카테고리 등)으로 구성된 dataset으로 매출액 예측
User_ID Product_ID Gender Age Occupation
City_
Category
Stay_In_
Current_City_Years
Marital_
Status
Product_
Category_1
Product_
Category_2
Product_
Category_3
Purchase
1001559 P0096442 M 36-45 8 A 1 0 4 5 12 1454
1001560 P00328442 F 26-35 3 B 2 0 5 14 6888
1001560 P00347642 F 26-35 3 B 2 0 1 6 3833
1001560 P00296042 F 26-35 3 B 2 0 8 13 16 4252
1001560 P00350942 F 26-35 3 B 2 0 3 4 5 13378
1001560 P00090942 F 26-35 3 B 2 0 1 2 14 19442
1001560 P00262442 F 26-35 3 B 2 0 4 5 2173
Welcome to the Waitless World - 28 -
H2O DriverlessAI : PayPal에서도 IBM GPU 서버를 사용
Source : https://youtu.be/r9S3xchrzlY
Welcome to the Waitless World - 29 -
Why H2O Driverless AI on IBM AC922 ?
High Speed Data Transfer
9.5x
Big Data Scale
2.6xMore RAM Max I/O bandwidth
30x
GPU Accelerated ML
NVLink와 PCIe Gen4를 탑재한 POWER9 프로세서
Faster on GPUs
High Speed Data Transfer
1.5x
Big Data Scale
2xData Ingest Feature Engineering
5x
GPU Accelerated ML
Time Series
Welcome to the Waitless World - 30 -
H2O DriverlessAI의 CPU 및 GPU 사용 형태
Fri Oct 5 03:36:45 2018
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 396.26 Driver Version: 396.26 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla P100-SXM2... On | 00000002:01:00.0 Off | 0 |
| N/A 34C P0 64W / 300W | 455MiB / 16280MiB | 40% Default |
+-------------------------------+----------------------+----------------------+
| 1 Tesla P100-SXM2... On | 00000003:01:00.0 Off | 0 |
| N/A 36C P0 77W / 300W | 455MiB / 16280MiB | 38% Default |
+-------------------------------+----------------------+----------------------+
| 2 Tesla P100-SXM2... On | 0000000A:01:00.0 Off | 0 |
| N/A 32C P0 71W / 300W | 455MiB / 16280MiB | 40% Default |
+-------------------------------+----------------------+----------------------+
| 3 Tesla P100-SXM2... On | 0000000B:01:00.0 Off | 0 |
| N/A 36C P0 64W / 300W | 455MiB / 16280MiB | 38% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| 0 94004 C ...el-running(prot=False)-XGBoostModel-fit 445MiB |
| 1 94011 C ...el-running(prot=False)-XGBoostModel-fit 445MiB |
| 2 94044 C ...el-running(prot=False)-XGBoostModel-fit 445MiB |
| 3 94126 C ...el-running(prot=False)-XGBoostModel-fit 445MiB |
+-----------------------------------------------------------------------------+
H2O DAI의 병목은 GPU 성능이나 GPU 메모리가 아니라 연결 대역폭
Welcome to the Waitless World - 31 -
1개 brick의 NVLink 만으로는 불충분
 H2O DAI의 뛰어난
multi-GPU 활용
 100GB/s를 훨씬
초과하는 대역폭
필요
 x86 GPU 서버에서는
1개 brick의
NVLink만을 사용
 50GB/s에 불과
 AC922 서버에서는
3개 brick의 NVLink를
1개로 통합
 150GB/s
 DtoD는 물론,
HtoD/DtoH도 동일
Welcome to the Waitless World
NVLink 아키텍처의 비교
• CPU와 GPU간은 PCIe로 연결 (32GB/sec)
• 4개 GPU끼리 NVLink * 1 link로 연결 (50GB/sec)
• 다른 socket의 GPU 4개와의 연결은 2-hop 구조
• CPU와 GPU간을 NVLink * 3 link로 연결 (150GB/sec)
• 2개 GPU끼리 NVLink * 3 link로 연결 (150GB/sec)
• 다른 socket의 GPU 2개와의 연결은 64GB/s(4 byte *
16GHz)의 SMP X bus로 연결
CPU-GPU 간의 NVLink, 그리고 NVLink *3 = 150 GB/sec가 AC922의 특장점
POWER9
GPUGPU NVLink
150 GB/s
50 GB/s
50 GB/s
32 GB/s 32 GB/s
x86 GPU AC922
64 GB/s
POWER9
GPUGPU NVLink
150 GB/s
33

Mais conteúdo relacionado

Mais procurados

Introduction to Enterprise Service Bus
Introduction to Enterprise Service BusIntroduction to Enterprise Service Bus
Introduction to Enterprise Service BusMahmoud Ezzat
 
Neo4j Data Loading with Kettle
Neo4j Data Loading with KettleNeo4j Data Loading with Kettle
Neo4j Data Loading with KettleNeo4j
 
An intro to GraphQL
An intro to GraphQLAn intro to GraphQL
An intro to GraphQLvaluebound
 
Introduction to Apache Solr
Introduction to Apache SolrIntroduction to Apache Solr
Introduction to Apache SolrChristos Manios
 
Introduction to Google APIs
Introduction to Google APIsIntroduction to Google APIs
Introduction to Google APIsSiva Arunachalam
 
Vertex AI - Unified ML Platform for the entire AI workflow on Google Cloud
Vertex AI - Unified ML Platform for the entire AI workflow on Google CloudVertex AI - Unified ML Platform for the entire AI workflow on Google Cloud
Vertex AI - Unified ML Platform for the entire AI workflow on Google CloudMárton Kodok
 
Big Query Basics
Big Query BasicsBig Query Basics
Big Query BasicsIdo Green
 
MongoDB - External Authentication
MongoDB - External AuthenticationMongoDB - External Authentication
MongoDB - External AuthenticationJason Terpko
 
Drug and Vaccine Discovery: Knowledge Graph + Apache Spark
Drug and Vaccine Discovery: Knowledge Graph + Apache SparkDrug and Vaccine Discovery: Knowledge Graph + Apache Spark
Drug and Vaccine Discovery: Knowledge Graph + Apache SparkDatabricks
 

Mais procurados (12)

Introduction to Enterprise Service Bus
Introduction to Enterprise Service BusIntroduction to Enterprise Service Bus
Introduction to Enterprise Service Bus
 
Neo4j Data Loading with Kettle
Neo4j Data Loading with KettleNeo4j Data Loading with Kettle
Neo4j Data Loading with Kettle
 
An intro to GraphQL
An intro to GraphQLAn intro to GraphQL
An intro to GraphQL
 
Webinar Oracle Application Express
Webinar Oracle Application ExpressWebinar Oracle Application Express
Webinar Oracle Application Express
 
Introduction to Apache Solr
Introduction to Apache SolrIntroduction to Apache Solr
Introduction to Apache Solr
 
Introduction to Google APIs
Introduction to Google APIsIntroduction to Google APIs
Introduction to Google APIs
 
ssis lab
ssis labssis lab
ssis lab
 
Vertex AI - Unified ML Platform for the entire AI workflow on Google Cloud
Vertex AI - Unified ML Platform for the entire AI workflow on Google CloudVertex AI - Unified ML Platform for the entire AI workflow on Google Cloud
Vertex AI - Unified ML Platform for the entire AI workflow on Google Cloud
 
Big Query Basics
Big Query BasicsBig Query Basics
Big Query Basics
 
MongoDB - External Authentication
MongoDB - External AuthenticationMongoDB - External Authentication
MongoDB - External Authentication
 
Drug and Vaccine Discovery: Knowledge Graph + Apache Spark
Drug and Vaccine Discovery: Knowledge Graph + Apache SparkDrug and Vaccine Discovery: Knowledge Graph + Apache Spark
Drug and Vaccine Discovery: Knowledge Graph + Apache Spark
 
Designing data intensive applications
Designing data intensive applicationsDesigning data intensive applications
Designing data intensive applications
 

Semelhante a [한국 IBM 권오윤] H2O.ai DriverlessAI 소개자료

H2O Driverless AI on IBM Power
H2O Driverless AI on IBM PowerH2O Driverless AI on IBM Power
H2O Driverless AI on IBM PowerHyungSun(Sean) Kim
 
[한국 IBM 권오윤]H2O.ai DAI & IBM GPU 서버
[한국 IBM 권오윤]H2O.ai DAI & IBM GPU 서버[한국 IBM 권오윤]H2O.ai DAI & IBM GPU 서버
[한국 IBM 권오윤]H2O.ai DAI & IBM GPU 서버오윤 권
 
고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS C...
고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS C...고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS C...
고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS C...Amazon Web Services Korea
 
제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018
제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018 제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018
제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018 Amazon Web Services Korea
 
빅데이터 분석 시스템 도입과 AI 적용
빅데이터 분석 시스템 도입과 AI 적용빅데이터 분석 시스템 도입과 AI 적용
빅데이터 분석 시스템 도입과 AI 적용BESPIN GLOBAL
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)Metatron
 
[Retail & CPG Day 2019] 유통 고객의 AWS 도입 동향 - 박동국, AWS 어카운트 매니저, 김준성, AWS어카운트 매니저
[Retail & CPG Day 2019] 유통 고객의 AWS 도입 동향 - 박동국, AWS 어카운트 매니저, 김준성, AWS어카운트 매니저[Retail & CPG Day 2019] 유통 고객의 AWS 도입 동향 - 박동국, AWS 어카운트 매니저, 김준성, AWS어카운트 매니저
[Retail & CPG Day 2019] 유통 고객의 AWS 도입 동향 - 박동국, AWS 어카운트 매니저, 김준성, AWS어카운트 매니저Amazon Web Services Korea
 
클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션 :: 정우진 이사
클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션 :: 정우진 이사클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션 :: 정우진 이사
클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션 :: 정우진 이사Amazon Web Services Korea
 
170426 cloud day in 포항 2. 클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션_aws 정우진 이사
170426 cloud day in 포항 2. 클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션_aws 정우진 이사170426 cloud day in 포항 2. 클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션_aws 정우진 이사
170426 cloud day in 포항 2. 클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션_aws 정우진 이사POSCO ICT
 
[코세나, kosena] 금융권의 머신러닝 활용사례
[코세나, kosena] 금융권의 머신러닝 활용사례[코세나, kosena] 금융권의 머신러닝 활용사례
[코세나, kosena] 금융권의 머신러닝 활용사례kosena
 
블록체인 데이터와 머신러닝으로 만들어내는 금융업계의 고객 가치
블록체인 데이터와 머신러닝으로 만들어내는 금융업계의 고객 가치블록체인 데이터와 머신러닝으로 만들어내는 금융업계의 고객 가치
블록체인 데이터와 머신러닝으로 만들어내는 금융업계의 고객 가치Chris Hoyean Song
 
클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017
클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017
클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017Amazon Web Services Korea
 
기업의 미래를 바꾸는 AI 플랫폼
기업의 미래를 바꾸는 AI 플랫폼기업의 미래를 바꾸는 AI 플랫폼
기업의 미래를 바꾸는 AI 플랫폼BESPIN GLOBAL
 
Kpmg ideation challenge: ING team (korean)
Kpmg ideation challenge: ING team (korean)Kpmg ideation challenge: ING team (korean)
Kpmg ideation challenge: ING team (korean)JihyunSon2
 
클라우드를 활용한 디지털 제조(Digital Manufacturing)실현 방법 및 사례 소개 - 윤석찬 (AWS 테크에반젤리스트) :: ...
클라우드를 활용한 디지털 제조(Digital Manufacturing)실현 방법 및 사례 소개 - 윤석찬 (AWS 테크에반젤리스트) :: ...클라우드를 활용한 디지털 제조(Digital Manufacturing)실현 방법 및 사례 소개 - 윤석찬 (AWS 테크에반젤리스트) :: ...
클라우드를 활용한 디지털 제조(Digital Manufacturing)실현 방법 및 사례 소개 - 윤석찬 (AWS 테크에반젤리스트) :: ...Amazon Web Services Korea
 
IBM PowerAI Vision
IBM PowerAI VisionIBM PowerAI Vision
IBM PowerAI VisionSeoro Kim
 
AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...
AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...
AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...Amazon Web Services Korea
 
H2O.ai DriverlessAI
H2O.ai DriverlessAIH2O.ai DriverlessAI
H2O.ai DriverlessAI오윤 권
 
빅데이터의 활용
빅데이터의 활용빅데이터의 활용
빅데이터의 활용수보 김
 

Semelhante a [한국 IBM 권오윤] H2O.ai DriverlessAI 소개자료 (20)

H2O Driverless AI on IBM Power
H2O Driverless AI on IBM PowerH2O Driverless AI on IBM Power
H2O Driverless AI on IBM Power
 
[한국 IBM 권오윤]H2O.ai DAI & IBM GPU 서버
[한국 IBM 권오윤]H2O.ai DAI & IBM GPU 서버[한국 IBM 권오윤]H2O.ai DAI & IBM GPU 서버
[한국 IBM 권오윤]H2O.ai DAI & IBM GPU 서버
 
고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS C...
고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS C...고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS C...
고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS C...
 
제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018
제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018 제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018
제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018
 
빅데이터 분석 시스템 도입과 AI 적용
빅데이터 분석 시스템 도입과 AI 적용빅데이터 분석 시스템 도입과 AI 적용
빅데이터 분석 시스템 도입과 AI 적용
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
 
[Retail & CPG Day 2019] 유통 고객의 AWS 도입 동향 - 박동국, AWS 어카운트 매니저, 김준성, AWS어카운트 매니저
[Retail & CPG Day 2019] 유통 고객의 AWS 도입 동향 - 박동국, AWS 어카운트 매니저, 김준성, AWS어카운트 매니저[Retail & CPG Day 2019] 유통 고객의 AWS 도입 동향 - 박동국, AWS 어카운트 매니저, 김준성, AWS어카운트 매니저
[Retail & CPG Day 2019] 유통 고객의 AWS 도입 동향 - 박동국, AWS 어카운트 매니저, 김준성, AWS어카운트 매니저
 
클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션 :: 정우진 이사
클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션 :: 정우진 이사클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션 :: 정우진 이사
클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션 :: 정우진 이사
 
170426 cloud day in 포항 2. 클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션_aws 정우진 이사
170426 cloud day in 포항 2. 클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션_aws 정우진 이사170426 cloud day in 포항 2. 클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션_aws 정우진 이사
170426 cloud day in 포항 2. 클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션_aws 정우진 이사
 
[코세나, kosena] 금융권의 머신러닝 활용사례
[코세나, kosena] 금융권의 머신러닝 활용사례[코세나, kosena] 금융권의 머신러닝 활용사례
[코세나, kosena] 금융권의 머신러닝 활용사례
 
블록체인 데이터와 머신러닝으로 만들어내는 금융업계의 고객 가치
블록체인 데이터와 머신러닝으로 만들어내는 금융업계의 고객 가치블록체인 데이터와 머신러닝으로 만들어내는 금융업계의 고객 가치
블록체인 데이터와 머신러닝으로 만들어내는 금융업계의 고객 가치
 
클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017
클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017
클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017
 
기업의 미래를 바꾸는 AI 플랫폼
기업의 미래를 바꾸는 AI 플랫폼기업의 미래를 바꾸는 AI 플랫폼
기업의 미래를 바꾸는 AI 플랫폼
 
Kpmg ai
Kpmg aiKpmg ai
Kpmg ai
 
Kpmg ideation challenge: ING team (korean)
Kpmg ideation challenge: ING team (korean)Kpmg ideation challenge: ING team (korean)
Kpmg ideation challenge: ING team (korean)
 
클라우드를 활용한 디지털 제조(Digital Manufacturing)실현 방법 및 사례 소개 - 윤석찬 (AWS 테크에반젤리스트) :: ...
클라우드를 활용한 디지털 제조(Digital Manufacturing)실현 방법 및 사례 소개 - 윤석찬 (AWS 테크에반젤리스트) :: ...클라우드를 활용한 디지털 제조(Digital Manufacturing)실현 방법 및 사례 소개 - 윤석찬 (AWS 테크에반젤리스트) :: ...
클라우드를 활용한 디지털 제조(Digital Manufacturing)실현 방법 및 사례 소개 - 윤석찬 (AWS 테크에반젤리스트) :: ...
 
IBM PowerAI Vision
IBM PowerAI VisionIBM PowerAI Vision
IBM PowerAI Vision
 
AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...
AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...
AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...
 
H2O.ai DriverlessAI
H2O.ai DriverlessAIH2O.ai DriverlessAI
H2O.ai DriverlessAI
 
빅데이터의 활용
빅데이터의 활용빅데이터의 활용
빅데이터의 활용
 

Mais de 오윤 권

Linux 서버 통합 : IBM LinuxONE
Linux 서버 통합 : IBM LinuxONELinux 서버 통합 : IBM LinuxONE
Linux 서버 통합 : IBM LinuxONE오윤 권
 
Ibm sap hana on power
Ibm sap hana on powerIbm sap hana on power
Ibm sap hana on power오윤 권
 
IBM의 머신비전 솔루션 PowerAI vision
IBM의 머신비전 솔루션 PowerAI visionIBM의 머신비전 솔루션 PowerAI vision
IBM의 머신비전 솔루션 PowerAI vision오윤 권
 
토큰화 시대에 적합한 Linux 서버 IBM LinuxONE
토큰화 시대에 적합한 Linux 서버 IBM LinuxONE토큰화 시대에 적합한 Linux 서버 IBM LinuxONE
토큰화 시대에 적합한 Linux 서버 IBM LinuxONE오윤 권
 
IBM Flash Storage 플래시 스토리지
IBM Flash Storage 플래시 스토리지IBM Flash Storage 플래시 스토리지
IBM Flash Storage 플래시 스토리지오윤 권
 
IBM Cloud Object Storage 오브젝트 스토리지
IBM Cloud Object Storage 오브젝트 스토리지IBM Cloud Object Storage 오브젝트 스토리지
IBM Cloud Object Storage 오브젝트 스토리지오윤 권
 
효율적 클러스터 활용을 위한 job scheduler
효율적 클러스터 활용을 위한 job scheduler효율적 클러스터 활용을 위한 job scheduler
효율적 클러스터 활용을 위한 job scheduler오윤 권
 

Mais de 오윤 권 (7)

Linux 서버 통합 : IBM LinuxONE
Linux 서버 통합 : IBM LinuxONELinux 서버 통합 : IBM LinuxONE
Linux 서버 통합 : IBM LinuxONE
 
Ibm sap hana on power
Ibm sap hana on powerIbm sap hana on power
Ibm sap hana on power
 
IBM의 머신비전 솔루션 PowerAI vision
IBM의 머신비전 솔루션 PowerAI visionIBM의 머신비전 솔루션 PowerAI vision
IBM의 머신비전 솔루션 PowerAI vision
 
토큰화 시대에 적합한 Linux 서버 IBM LinuxONE
토큰화 시대에 적합한 Linux 서버 IBM LinuxONE토큰화 시대에 적합한 Linux 서버 IBM LinuxONE
토큰화 시대에 적합한 Linux 서버 IBM LinuxONE
 
IBM Flash Storage 플래시 스토리지
IBM Flash Storage 플래시 스토리지IBM Flash Storage 플래시 스토리지
IBM Flash Storage 플래시 스토리지
 
IBM Cloud Object Storage 오브젝트 스토리지
IBM Cloud Object Storage 오브젝트 스토리지IBM Cloud Object Storage 오브젝트 스토리지
IBM Cloud Object Storage 오브젝트 스토리지
 
효율적 클러스터 활용을 위한 job scheduler
효율적 클러스터 활용을 위한 job scheduler효율적 클러스터 활용을 위한 job scheduler
효율적 클러스터 활용을 위한 job scheduler
 

[한국 IBM 권오윤] H2O.ai DriverlessAI 소개자료

  • 1. AI를 쉽고 빠르게 할 수 있는 AutoML - H2O Driverless AI 2020 1Q 권오윤 영업대표 010-4995-6649 (OyunKwon@kr.ibm.com)
  • 2. Welcome to the Waitless World - 2 - 기업에서의 AI 채택에 대한 걸림돌 AI 전문 인력 부족 ~100 Data science experts in the world Time for a data scientist to build a model Months 느린 개발 속도 Black box models AI에 대한 신뢰 부족 “미국에서만도 분석 전문가의 인력 부족이 19만명에 달한다.” “2024년이 되면 부족한 전문가는 25만명까지 늘어난다.” Data is a Team Sport
  • 3. Welcome to the Waitless World - 3 - H2O.ai 회사 개요 Company Founded in Silicon Valley in 2012 Funded: Series D, Investors: Wells Fargo, NVIDIA, Nexus Ventures, Paxion Ventures, Barclays, Goldman Sachs, Ping An Global Products • H2O Open Source Machine Learning (18,000 organizations) • H2O Driverless AI – Automatic Machine Learning Leadership Leader in Gartner MQ Machine Learning and Data Science Platform Team 170+ AI expertise (Kaggle Grandmasters/expert data scientists, Distributed Computing, Visualization) Global Mountain View, NYC, London, Prague, India, Singapore, France
  • 4. Welcome to the Waitless World AI와 ML의 선두주자인 H2O.ai Gartner Machine Learning and Data Science Platform The Forrester Wave™: Automation Solutions, Q2 2019 Top 3 Artificial Intelligence (AI) and Machine Learning (ML) Software Solution "Excellent marks for product roadmap and vision." “The industry standard” “Its vision of creating an AI and ML tool that ultimately aims to allow almost everyone within the business to create their own predictive models” “H2O.ai’s future is automated machine learning” “…is best for companies that want to delight data scientists”
  • 5. Welcome to the Waitless World Growing Worldwide H2O AI Community 18,000 Companies Using H2O 200,000 Data Scientists 120K Meetup Members H2O World – NYC, London, SF Thousands attending live and online
  • 6.
  • 7. Welcome to the Waitless World AutoML이란? Automated Machine Learning (AutoML) – 실제 사회에서 발생하는 다양한 문제들에 머신러닝을 적용하기 위한 모든 프로세스를 자동화 해주는 것을 의미 보통의 머신러닝 어플리케이션에서는 Data Scientist들이 1) 적절한 데이터의 전처리 2) 파생변수의 생성 3) 변수의 추출 4) 변수의 선택 등의 방법을 적용하여 데이터 셋을 수정한다. 이러한 전처리 과정을 통한 모델링 과정에서 Data Scientist들은 1) 적절한 알고리즘의 선택 2) 하이퍼 파라메터의 최적화를 수행하여 최종 머신러닝을 통해 만들어지는 모델에서 최적의 예측결과를 내도록 한다.
  • 8. Welcome to the Waitless World AI 모델 개발의 3가지 어려움 Basic Encoding Feature Generation Advanced Encoding Talent: Feature Engineering Algorithm Selection Parameter Tuning Time: Model Building Model Ensembles Pipeline Generation Model Explainabilty Trust: Model Deployment Model Documentation • 많은 시간 소요 • 고급 스킬 셋의 필요 • 특히 새로운 파생 변수의 생성은 높은 레벨의 스킬과 경험을 요구 • 많은 시간 소요 • 알고리즘과 파라메터등에 대한 고급의 지식이 필요함 • 모델을 Ensemble하는 것도 고급 스킬로 분류됨 • 많은 시간이 소요 • 모델을 Deploy하는데는 IT base의 스킬 셋이 필요 • 어떻게 예측 모델이 결정을 하게 되었는지 설명하는 것은 신뢰측면에서 매우 중요 (특히 의사결정권자들과 감사하는 입장에서) 이러한 전체의 프로세스는 수많은 반복이 필요하고 몇 주에서 몇 달까지 시간이 소요될 수 있습니다.
  • 9. Welcome to the Waitless World Driverless AI 는 기업에게 AI를 전달 Time Time to Insight Talent Kaggle Grandmasters Top 10 Data Science Experts GPU Accelerated ML Automatic Pipelines Months to Hours Trust Explainability and Transparency MLI Auto Doc Auto Visualization
  • 10. Welcome to the Waitless World - 10 - 전형적인 machine learning의 workflow “Data Scientist 영역” 반복적, 장시간 중노동 “IT 영역” ETL, data cleaning, encoding, etc “개발자 영역” App coding 및 튜닝 Business Prediction
  • 11. Welcome to the Waitless World - 11 - Data Science와 ML workflow의 자동화 H2O Driverless AI “Feature engineering부터 app까지” Business Prediction “IT 영역” ETL, data cleaning, encoding, etc
  • 12. Welcome to the Waitless World H2O Driverless AI: “Expert Data Scientist in a Box” SQL Local Amazon S3 HDFS X Y Automatic Scoring Pipeline Machine learning 설명 Deploy Low- latency Scoring to Production Modelling Dataset Model Recipes: • i.i.d. Data • Time-series • NLP • More on the way Advanced Feature Engineering Algorithm Model Tuning + + Survival of the Fittest Automatic Machine Learning 데이터의 형태나 Outliers 혹은 빠진 자료등을 이해 Powered by GPU Acceleration 1 Drag and drop data 2 자동화된 시각화 Best practice model recipes와 CPU/GPU 연산능력을 이용하여, 진보된 feature engineering과 parameter tuning을 포함한 수천개의 가능성 있는 모델들에 걸쳐 반복 훈련 3 자동화된 Machine Learning Feature transformation과 models를 포함한, low-latency Python 또는 Java로 구현된 Automatic Scoring Pipelines를 deploy 4 자동화된 소스코드 생성 어디서든 데이터를 가져올 수 있음 (Local or Cloud) Google BigQuery Azure Blog Storage Snowflake Automatic Model Documentation 5 BYOR – Scorer, Transformer, Model+
  • 13. Welcome to the Waitless World H2O Driverless AI의 주요 특장점 1. 자동화된 파생 변수 생성 2. 설명 가능한 Machine Learning (MLI) 3. TensorFlow를 이용한 자연어 분석 (NLP) 4. Time Series 데이터 분석 5. 자동화된 시각화 6. 자동화된 소스코드 생성 7. 자동화된 분석 문서 생성 8. NVIDIA GPU Acceleration 9. Bring-Your-Own Recipes (Customized ML)
  • 14. Welcome to the Waitless World 장기적 관점에서의 H2O Driverless AI 다른 자동화된 ML 플랫폼과는 다르게 Driverless AI는 더 나은 비전과 아키텍쳐를 제시합니다. 은행, 보험, 생산라인 그리고 병원등의 사업의 업계를 선두하는 곳들에 의해 로드맵이 만들어 집니다. 더 많은 데이터를 다룰 수 있도록 디자인 되었으며, 어떤 데이터도 H2O플랫폼 위에서 사용 가능합니다. 하나의 ML 플랫폼으로 수많은 Data Scientist의 AI를 확장가능 Confidential and property of H2O.ai. All rights reserved
  • 15. Welcome to the Waitless World - 15 - 신뢰와 규제 준수를 위한 업계 선두의 Interpretability  규제 뿐만 아니라 디버깅을 위해 필요한 Interpretability  사유 부호(reason code)와 모델 interpretability를 영어 평문으로 생성  각 prediction에 대한 사유 부호 생성에 K- Lime, LOCO, partial dependence 등의 기술을 지원
  • 16. Welcome to the Waitless World - 16 - Low-latency Model들의 편리한 배치 활용  독립된 prediction program의 자동 생성  Python 및 Java로 된 “scoring-pipeline” 자동 생성  편리한 inferencing  새로운 model 생성시 편리한 update  복잡한 big data model에 대해 최적화된 scoring code  최말단 및 모바일 등 어떤 디바이스에서나 배치 가능한 간결한 scoring code  실시간 app을 만족시키는 millisecond 단위의 반응 속도
  • 17. Welcome to the Waitless World - 17 - H2O DriverlessAI : 손쉽고 직관적인 machine learning
  • 18. Welcome to the Waitless World AutoML: H2O DAI – 산업별 사례 시간절약, 비용절약, 경쟁적인 이점 Wholesale / Commercial Banking • 고객 분석 (KYC) • 돈세탁 방지 (AML) Card / Payments Business • 사기 거래 • 공모 사기 • 실시간 분석 • 신용도 평가 Retail Banking • 예금 사기 • 고객이탈 예측 • 자동 여신 평가 Financial Services • 암 초기 진단 • 약품 추천 • 개인화된 처방 조치 • 의료 청구 사기 발견 • 독감 예측 • 불법 약물 처방 발견 • 응급초지 관련 관리 • 원격 환자 관리 • 임상실험 예측 Healthcare • 관리 예측 • 고객 이탈 방지 • 고객데이터에 입각한 관리 • 원장 데이터 관리 • 지능적인 광고 추천 • 개인화된 프로그램 추천 Telecom • 개인화된 광고 • 신용관리 • 사기 감지 • 최선의 추천 • 고객 관리 • 스마트 프로파일링 • 고객 행동 예측 • 고객에게 상품 추천 Marketing and Retail
  • 19. Welcome to the Waitless World - 19 -
  • 20. Welcome to the Waitless World - 20 - Use case : 금융 사기 탐지 Venkatesh Ramanathan Senior Data Scientist, PayPal  Driverless AI는 10년 경력의 feature engineering 전문가에 필적  사기 행위 탐지 정확도를 0.89에서 0.947로 6% 향상  H2O4GPU with Driverless AI 사용으로 6배 속도 향상 “Driverless AI는 feature 및 모델 성능 측면에서 놀라운 결과를 만들어내고 있습니다.”
  • 21. Welcome to the Waitless World - 21 - Use case : 마케팅 최적화 “Driverless AI는 우리의 Intelligent Marketing Cloud 로 고객에게 접근하는데 큰 도움을 주었습니다. AI를 하기 위한 AI는 우리 시스템을 날마다 향상시켜 주고 있습니다.” Martin Stein Chief Product Officer  다른 부동산 디지털 마케팅 솔루션보다 2.5배 뛰어난 효과  한 G5 고객사는 연간 디지털 마케팅 비용 $500K를 절감하면서도 웹 트래픽을 3배로 늘림  10배 빠른 모델 생성
  • 22. Welcome to the Waitless World - 22 - Use case : 매출 예측 및 수급 관리 “H2O Driverless AI feature engineering은 제가 본 것 중 최고입니다. 그리고 scoring pipeline 생성은 제게는 아마 최고의 플러스입니다. 시간을 크게 줄여주었거든요.” Robert Coop Sr. Data Scientist Stanley Black & Decker  1명의 data scientist로 25% 시간 절약  제조 생산 라인을 위한 모델 튜닝과 훈련에 1달의 시간 단축  Forecast 정확성 향상을 통해 미래 고객 주문을 위한 필요 부품 및 원자재를 정확히 예측
  • 23. Welcome to the Waitless World $ head -n 2 creditcard_train.csv "Time","V1","V2","V3","V4","V5","V6","V7","V8","V9","V10","V11","V12","V13","V14","V15","V16","V17","V18","V19","V20","V 21","V22","V23","V24","V25","V26","V27","V28","Amount","Class" 0,-1.3598071336738,-0.0727811733098497,2.53634673796914,1.37815522427443,- 0.338320769942518,0.462387777762292,0.239598554061257,0.0986979012610507,0.363786969611213,0.09079417197 89316,-0.551599533260813,-0.617800855762348,-0.991389847235408,-0.311169353699879,1.46817697209427,- 0.470400525259478,0.207971241929242,0.0257905801985591,0.403992960255733,0.251412098239705,- 0.018306777944153,0.277837575558899,-0.110473910188767,0.0669280749146731,0.128539358273528,- 0.189114843888824,0.133558376740387,-0.0210530534538215,149.62,"0" H2O DAI를 이용한 credit card fraud detection 정확도 Data source : https://www.kaggle.com/mlg-ulb/creditcardfraud/home Test 상세 : https://hwengineer.blogspot.com/2018/12/h2o-driverless-ai-kaggle-creditcard.html  Kaggle에서 제공되는 실제 신용카드 사기 dataset을 이용하여 H2O DAI의 실제 정확도 측정  전체 거래 (28만건 이상) 중 사기거래(Class=“1”)는 492건 (0.173%)  Test dataset 3천건 중 실제 사기거래는 4건 (row_num : 588, 871, 874, 921)
  • 24. Welcome to the Waitless World $ head -n 2 creditcard_train.csv "Time","V1","V2","V3","V4","V5","V6","V7","V8","V9","V10","V11","V12","V13","V14","V15","V16","V17","V18","V19","V20","V 21","V22","V23","V24","V25","V26","V27","V28","Amount","Class" 0,-1.3598071336738,-0.0727811733098497,2.53634673796914,1.37815522427443,- 0.338320769942518,0.462387777762292,0.239598554061257,0.0986979012610507,0.363786969611213,0.09079417197 89316,-0.551599533260813,-0.617800855762348,-0.991389847235408,-0.311169353699879,1.46817697209427,- 0.470400525259478,0.207971241929242,0.0257905801985591,0.403992960255733,0.251412098239705,- 0.018306777944153,0.277837575558899,-0.110473910188767,0.0669280749146731,0.128539358273528,- 0.189114843888824,0.133558376740387,-0.0210530534538215,149.62,"0" H2O DAI를 이용한 credit card fraud detection 정확도 Data source : https://www.kaggle.com/mlg-ulb/creditcardfraud/home Test 상세 : https://hwengineer.blogspot.com/2018/12/h2o-driverless-ai-kaggle-creditcard.html  Kaggle에서 제공되는 실제 신용카드 사기 dataset을 이용하여 H2O DAI의 실제 정확도 측정  전체 거래 (28만건 이상) 중 사기거래(Class=“1”)는 492건 (0.173%)  Test dataset 3천건 중 실제 사기거래는 4건 (row_num : 588, 871, 874, 921)
  • 25. Welcome to the Waitless World H2O DAI를 이용한 제조업 관련 data 예측 Data source : https://www.kaggle.com/burakhmmtgl/predict-molecular-properties/home Test 상세 : http://hwengineer.blogspot.com/2019/01/h2o-driverless.html  Kaggle에서 제공되는 실제 분자 구조 및 에너지 dataset을 이용하여 H2O DAI의 실제 정확도 측정  JSON format의 비정형 string을 자동 feature engineering을 통해 분석하여 분자 에너지 값을 예측  JSON 파일은 간단한 python code를 이용해 CSV로 전환 { 'En': 37.801, 'atoms': [ {'type': 'O', 'xyz': [0.3387, 0.9262, 0.46]}, {'type': 'O', 'xyz': [3.4786, -1.7069, -0.3119]}, {'type': 'N', 'xyz': [-2.2359, -0.7251, 0.027]}, {'type': 'C', 'xyz': [-0.7783, -1.1579, 0.0914]}, {'type': 'C', 'xyz': [0.1368, -0.0961, -0.5161]}, ... {'type': 'H', 'xyz': [1.5832, 2.901, 1.6404]} ], 'id': 1, 'shapeM': [259.66, 4.28, 3.04, 1.21, 1.75, 2.55, 0.16, -3.13, -0.22, -2.18, -0.56, 0.21, 0.17, 0.09] }
  • 26. Welcome to the Waitless World H2O DAI를 이용한 개인별 매출액 예측 Data source : https://www.kaggle.com/mehdidag/black-friday/home  Kaggle에서 제공되는 실제 Black Friday 고객별 매출 dataset을 이용하여 H2O DAI의 실제 정확도 측정  6만6천건의 12개 칼럼 (고객의 직업, 거주지, 상품 카테고리 등)으로 구성된 dataset으로 매출액 예측 User_ID Product_ID Gender Age Occupation City_ Category Stay_In_ Current_City_Years Marital_ Status Product_ Category_1 Product_ Category_2 Product_ Category_3 Purchase 1001559 P0096442 M 36-45 8 A 1 0 4 5 12 1454 1001560 P00328442 F 26-35 3 B 2 0 5 14 6888 1001560 P00347642 F 26-35 3 B 2 0 1 6 3833 1001560 P00296042 F 26-35 3 B 2 0 8 13 16 4252 1001560 P00350942 F 26-35 3 B 2 0 3 4 5 13378 1001560 P00090942 F 26-35 3 B 2 0 1 2 14 19442 1001560 P00262442 F 26-35 3 B 2 0 4 5 2173
  • 27. Welcome to the Waitless World H2O DAI를 이용한 개인별 매출액 예측 Data source : https://www.kaggle.com/mehdidag/black-friday/home  Kaggle에서 제공되는 실제 Black Friday 고객별 매출 dataset을 이용하여 H2O DAI의 실제 정확도 측정  6만6천건의 12개 칼럼 (고객의 직업, 거주지, 상품 카테고리 등)으로 구성된 dataset으로 매출액 예측 User_ID Product_ID Gender Age Occupation City_ Category Stay_In_ Current_City_Years Marital_ Status Product_ Category_1 Product_ Category_2 Product_ Category_3 Purchase 1001559 P0096442 M 36-45 8 A 1 0 4 5 12 1454 1001560 P00328442 F 26-35 3 B 2 0 5 14 6888 1001560 P00347642 F 26-35 3 B 2 0 1 6 3833 1001560 P00296042 F 26-35 3 B 2 0 8 13 16 4252 1001560 P00350942 F 26-35 3 B 2 0 3 4 5 13378 1001560 P00090942 F 26-35 3 B 2 0 1 2 14 19442 1001560 P00262442 F 26-35 3 B 2 0 4 5 2173
  • 28. Welcome to the Waitless World - 28 - H2O DriverlessAI : PayPal에서도 IBM GPU 서버를 사용 Source : https://youtu.be/r9S3xchrzlY
  • 29. Welcome to the Waitless World - 29 - Why H2O Driverless AI on IBM AC922 ? High Speed Data Transfer 9.5x Big Data Scale 2.6xMore RAM Max I/O bandwidth 30x GPU Accelerated ML NVLink와 PCIe Gen4를 탑재한 POWER9 프로세서 Faster on GPUs High Speed Data Transfer 1.5x Big Data Scale 2xData Ingest Feature Engineering 5x GPU Accelerated ML Time Series
  • 30. Welcome to the Waitless World - 30 - H2O DriverlessAI의 CPU 및 GPU 사용 형태 Fri Oct 5 03:36:45 2018 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 396.26 Driver Version: 396.26 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 Tesla P100-SXM2... On | 00000002:01:00.0 Off | 0 | | N/A 34C P0 64W / 300W | 455MiB / 16280MiB | 40% Default | +-------------------------------+----------------------+----------------------+ | 1 Tesla P100-SXM2... On | 00000003:01:00.0 Off | 0 | | N/A 36C P0 77W / 300W | 455MiB / 16280MiB | 38% Default | +-------------------------------+----------------------+----------------------+ | 2 Tesla P100-SXM2... On | 0000000A:01:00.0 Off | 0 | | N/A 32C P0 71W / 300W | 455MiB / 16280MiB | 40% Default | +-------------------------------+----------------------+----------------------+ | 3 Tesla P100-SXM2... On | 0000000B:01:00.0 Off | 0 | | N/A 36C P0 64W / 300W | 455MiB / 16280MiB | 38% Default | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: GPU Memory | | GPU PID Type Process name Usage | |=============================================================================| | 0 94004 C ...el-running(prot=False)-XGBoostModel-fit 445MiB | | 1 94011 C ...el-running(prot=False)-XGBoostModel-fit 445MiB | | 2 94044 C ...el-running(prot=False)-XGBoostModel-fit 445MiB | | 3 94126 C ...el-running(prot=False)-XGBoostModel-fit 445MiB | +-----------------------------------------------------------------------------+ H2O DAI의 병목은 GPU 성능이나 GPU 메모리가 아니라 연결 대역폭
  • 31. Welcome to the Waitless World - 31 - 1개 brick의 NVLink 만으로는 불충분  H2O DAI의 뛰어난 multi-GPU 활용  100GB/s를 훨씬 초과하는 대역폭 필요  x86 GPU 서버에서는 1개 brick의 NVLink만을 사용  50GB/s에 불과  AC922 서버에서는 3개 brick의 NVLink를 1개로 통합  150GB/s  DtoD는 물론, HtoD/DtoH도 동일
  • 32. Welcome to the Waitless World NVLink 아키텍처의 비교 • CPU와 GPU간은 PCIe로 연결 (32GB/sec) • 4개 GPU끼리 NVLink * 1 link로 연결 (50GB/sec) • 다른 socket의 GPU 4개와의 연결은 2-hop 구조 • CPU와 GPU간을 NVLink * 3 link로 연결 (150GB/sec) • 2개 GPU끼리 NVLink * 3 link로 연결 (150GB/sec) • 다른 socket의 GPU 2개와의 연결은 64GB/s(4 byte * 16GHz)의 SMP X bus로 연결 CPU-GPU 간의 NVLink, 그리고 NVLink *3 = 150 GB/sec가 AC922의 특장점 POWER9 GPUGPU NVLink 150 GB/s 50 GB/s 50 GB/s 32 GB/s 32 GB/s x86 GPU AC922 64 GB/s POWER9 GPUGPU NVLink 150 GB/s
  • 33. 33