5. 마이크로소프트 “고급 분석 기술”
SQL서버에서
데이터베이스
의 데이터 마이
닝 기능
정크메일을 필
터링 하기 위하
여 컴퓨터의 로
직을 활용
키넥트의 사용
자 제스처 감지
기능
Azure ML 서
비스를 일반에
제공
Machine
Learning 기반
의 검색엔진 활
용
Bing맵 교통량
분석 예측에
ML의 사용
실시간 음성통
역 기능
1999 201220082004 2014 ~ 현재20102005
● Microsoft 1999년부터 현재까지 Microsoft의 서비스 개선 및 Microsoft Partner와 고객을 위해 Machine
Learning을 사용해 왔습니다.
행동인식
실시간
언어분석
기계학습
Junk
이메일분석
ML
검색 엔진
MS-SQL
데이터마이닝
Bing
교통예측
난이도 Democratizing AI 범위 실제 솔루션
1. AI를 활용하는 Microsoft 서비스를 활용 쉬움 Agent / Applications
Windows 10 Cortana, Hololens,
Office 365, Dynamics 365,
Cortana Intelligence Suits, Azure ML Studio.
2. Microsoft AI API 서비스를 활용 쉬움/약간 어려움 Services Microsoft Cognitive Service, etc.
3. AI를 고객이 직접 수행 어려움 Infrastructure FPGA (+ CNTK)
6. Artificial Intelligence (AI):
• 인간의 지능이 요구되는 작업
을 수행하는 컴퓨터 애플리케
이션
Machine Learning (ML):
• 명시적 프로그래밍 및 수학적
인 모델 없이 데이터의 패턴을
식별하는 알고리즘으로 미래
예측 및 이상 징후 감지 등에 활
용
Deep Learning (DL):
• ML의 한가지로 인간의 두뇌를
모방한 다중 처리 계층 및 파라
미터를 사용하여 데이터를 모
델
• DL 네트워크는 컴퓨터 비전, 자
연어처리, 음성 인식 등에 활용
됨
용어 정리
MS리서치와 중국과학기술 대학에
서 학습시킨 컴퓨터가 IQ 테스트에
서 대학원생 보다 높은 점수를 얻음
2015.6
바이두 Deep Speech 기
술은 두 언어 (영어, 북경
어)에 대해서 인간보다
더 높은 식별을 보여줌
MS리서치는 인간보다
더 정확한 비전 기술
을 개발함
구글 DeepMind의 알파고는 DL
을 통한 자가학습으로 이세돌
9단과의 대국에서 승리함
2015.12 2015.12 2016.3
Deep Learning에 의한 5가지 주요 트랜드
• 빅 데이터: 폭발적 증가한 원시 데이터에 대한 ML 활용
• 저비용 슈퍼 컴퓨터: GPU 및 FPGA 를 활용한 가상 뉴런 및 다계층 모델을 통해 슈퍼 컴퓨터를 저비용
으로 구현
• 투자 활성화: AI 기반의 신규 애플리케이션 개발 경쟁이 증폭되고, 이런 기술에 대한 투자가 활성화됨
• AI 기술 혁신: Deep Learning 알고리즘, 아키텍처 및 소프트웨어 인프라의 기술 혁신 기대
• 재능 인력 양성: 학계의 많은 관심 및 투자가 활성화되며 관련 재능을 가진 인력이 양성됨
트랜드: Deep Learning의 큰 발전에 의해 AI 기술 확산이 가속화
7. • Azure ML은 빅데이터 처리 및 예측 분석을 위한
ML 모델링 도구
• 새로운 Cognitive Services는 비전, 음성 인식, 자
연어 처리, 지식 및 검색 등의 22개의 API를 제공
• Cloud Machine Learning은 ML 모델링 도구로 구
글에서 사용하는 Google Photo, voice search,
translation에서 사용하는 기술이 적용됨
• Google Speech API, Google Translate API 및
Google Vision API가 새로 추가됨
• Watson Developer Cloud는 자연어, 음성인식, 비
전 및 데이터 인사이트 등의 18개의 Watson API
를 제공함
• 산업 특화된 Watson Health 및 Watson IoT 제공
주요 사례 주요 사례 주요 사례
리모트 장비로부터 얻은 센서 데이
터로 예방 점검
개인화된 온라인 거래를 가능케 함
트랜드 식별. 예: 전염병 확산, 응급
환자 증가
온라인 거래 고객이탈 예측
8천만 사용자로 만들어진 사이트에
대한 이해 및 이미지 검색
도론으로부터 촬영된 이미지로 인사
이트 도출
소셜 이미지 편집 및 브랜딩 앱의 부
적절 이미지 식별에 활용
개인화된 암 치료
저비용, 작업 환경을 개선하는 주도적
빌딩 관리 제공
당요 환자에게 미리 위험 당요치를
예측
개인화된 건강/피트니스 계획 제공
Microsoft, Google, IBM의 ML 플랫폼 및 사례 비교
8.
9.
10. • 얼굴 인식, 이미지 인식, 감정 인식, 비디오 인식
• 음성 언어 처리, 화자 인식, Custom 언어 인식
• 자연어 처리, 감성 분석, 주제 분석, 스펠링 오류
• 복잡한 태스크 처리, 지식 탐색, 추천
• Bing 엔진을 활용한 웹/이미지/비디오/뉴스 검색, 자동완성
마이크로소프트 ML Road Map
11. 고급분석을 위한 클라우드 코타나
Cortana Intelligence Suite
DATA INTELLIGENCE ACTION
People
Automated
Systems
Available Today for Production
Integration & Modular Design
• Cloud / On-prem
• Structured / Unstructured
• Big / Small
• Real-time / Batch
• DW / BI / Advanced Analytics
15. R이란?
R은 전문 고급분석 도구로서, 오픈소스 커뮤니티의 개방성과 저비용이 큰 특징임주
2. R의 강점
Value
데이터 행동
의사
결정
1. R은 데이터분석 영역 중 “예측분석”
Open source
“사실상 표준어”
분석, 컴퓨팅, 모델링
글로벌 커뮤니티
300만 명 이상의 사용자
8,000+ 패키지
생태계
3. R 사용 기업 사례
주) SAS : 폐쇄형/고비용
Finance
• Lloyd’s : 재보험/자연재해 리스크분석
• ANZ Bank : 신용리스크분석,
모기지손실분석
소셜 미디어
• Facebook : 시각화, HR, 행동분석
• Google : 광고효과분석, 경제 예측
• Twitter : 시각화, 의미론적 클러스터링
공공
• City of Chicago : 식중독 예측
• FDA : 의약품승인
미디어
• NY Times : 선거예측, 데이터 저널리즘
16. Microsoft 고급 분석
Microsoft 고급 분석 솔루션 구성 요소
고급 분석 영역에서 온프리미스에서부터 클라우드 까지 자유롭게 선택할 수 있도록 전체 스택을 지원하고 있습니다.
기간계 IOT 반정형 비정형
Azure Machine learning Microsoft R Service
Microsoft
Stream I
nsight Se
rvice
Stream
Analytics
/
EventHub Integration Service
DBMS (In-Memory)
SQL
DB
Data Factory
Power BI
(Mobile)
Reporting Service
(SSRS)
Application
(web site,App)
Excel BI
SQL
DW HDInsight
17. Microsoft 고급 분석
R 이란?
WHY R?
LanguagePlatform
통계 분석을 위한 언어(패키지)
데이터 시각화도구
OpenSourceR?
오픈소스의 기업화
(기술지원, 교육, 도움말, 인력구성 등)
WHY Microsoft R?
Community
250만 데이터 과학자, 통계 분석가
최근 통계 학계 선호
Ecosystem
8000+이상의 무상패키지
R Usage Growth
Rexer Data Miner Survey, 2007-2013
R
R
(primary)
체계적인 통합 관리
(데이터, 분석, 알고리즘, 모델의 통합)
성능 및 확장성 보장
(데이터 이동 없음, 병렬 처리)
End ToEnd 솔루션 지원
(ETL, 분석, 분석 서비스, 시각화 등)
18. Microsoft R
대상별 특화된 IF 방식으로 고급 분석 능력 제공
마이크로소프트는 크게 세가지 방식으로 R을 사용하실 수 있도록 제공합니다.
개발자/DBA
활용방안
통합 분석 서버 구축 지원
DB IF 방식을 통한 익숙한 경험
데이터, 모델 을 통합 관리
데이터 이동 없는 빠른 성능
데이터 과학자 실무자
활용방안
스크립트, SQL 없이 사용자 친화적인
환경 제공
실시간 모델 처리 및 시각화 가능
유연한 도구를 통한 R 호환
활용방안
개발 환경에서 원격지 R 분석 서버
자원 활용
개발 후 배포된 모델의 배치 처리
데이터 저장소와 분석의 영역 분리
19. Microsoft R : 데이터 과학자를 위한 Microsoft R Server (Standalone)
추가적으로 성능, 확장성, 기술지원 측면에서 기업 환경에 더 최적화 되도록 새롭게 패키지화 했습니다.
DistributedR
DeployR RTVS
ScaleR
ConnectR
RT-VS : RStudio같은 Visual Studio 기반의 개발도구
DeployR : 개발된 결과를 특정 서버에 배포하고, 개발자가 쉽게
접근할 수 있는 웹서비스 API로 노출 – 엑셀, BI, LOB에서 활용
– 연동 BI : Tableau, QlikView, Excel, Jaspersoft등
– API: Java, JavaScript, .NET 지원
– 로드분배, 스케쥴링 지원
– Secure web services
– SSO, LDAP, AD, PAM, Basic Authentication 지원
– 접근권한 관리기능
ConnectR : 여러 소스 연결
– ASCII, SAS, SPSS, ODBC, HDFS, Teradata TPT, XDF (out-of-memory data object)
ScaleR : multi-core multi-thread를 지원하는 알고리즘들 (참고 :
click)
DistributedR : 다양한 플랫폼의 자원을 활용하도록 연결하는 병렬
연산 프레임웍
CRAN(Comprehensive R Archive Network): 8000+개 이상의
사용자가 직접 개발한 패키지를 공유
Microsoft R Server
20. Microsoft R : 데이터 과학자를 위한 Microsoft R Server (Standalone)
빅데이터
처리
메모리 사이즈에
제약
메모리와 디스크 기반확장성
(데이터사이즈 한계 제거)
샘플조사가 아닌 전수조사
가능해짐
분석의 속도 싱글 쓰레드 병렬 쓰레드 분석시간 절감
기업고객을
위한 지원 커뮤니티 차원의
지원
공식 기술지원체계에 따른지
원
기업고객 관점의 기술지원
확보
분석의
폭과 깊이
8000개 이상의 혁신적인
분석 패키지
오픈소스 패키지에추가하여
빅데이터를 위한 패키지 제공
기존 R의 강점을 강화
상업적 실행
가능성 오픈소스 배포의
리스크
상업적 라이선스 오픈소스 리스크 제거
추가적으로 성능, 확장성, 기술지원 측면에서 기업 환경에 더 최적화 되도록 새롭게 패키지화 했습니다.
오픈소스 R Microsoft R 기대효과
21. Microsoft R : 데이터 과학자를 위한 Microsoft R Server (Standalone)
윈도우 뿐만 아니라, 하둡, 리눅스 등의 다양한 플랫폼을 지원합니다.
Open Source R 기반 / 무료 /최적화
• Microsoft R Server
for Redhat Linux
• Microsoft R Server
for SUSE Linux
• Microsoft R Server
for Teradata DB
• Microsoft R Server
for Hadoop on Re
dhat
• Built-In Analytics
• Standalone Server
22. Microsoft R : DB 개발자를 위한Microsoft R Service (In-DB)
일반적으로 제공되는 R IF 방식과 다르게 데이터 저장 및 분석을 동시에 진행할 수 있는 방법입니다.
In-DB 분석 방식은 Standalone 방식 대비 아래의 장점을 가집니다.
1. DBMS IF로, DBA 에게 익숙하고 편리한 방식을지원함.
2. 데이터의 저장 및 분석이 같이 일어나기 때문에 성능 향상.
데이터 사이언티스트
데이터와 직접 상호작용
SQL 개발자 및 DBA
데이터와 분석 로직을
함께 관리
확장모듈
솔루션 예시
영업 Forecasting
재고 효율화 예측
정비
신용 리스크 방지
…
01001
0
10010
0
01010
1
관계형 데이터
Analytics library
T-SQL 인터페이스
?R
통합모듈
In-DB 분석 서버
010010
100100
010101
데이터를 이동할 필요
없이 실시간으로 운
영데이터 분석
R과 인메모리 고성능
분석을 동시에,
병렬 쓰레드/프로세싱 R
함수 활용
23. Microsoft R : 실무자를 위한 Microsoft R Visualization (시각화)
R의 분석 및 시각화 능력을 개발 및 SQL이 익숙하지 않은 현업들을 위해 손쉽게 BI 도구에서 R을 활용할 수 있게 하는 방법입니다.
개발자/분석가에 의해서 생성된 모델을 BI 도구에서 호출하고 바로 결과 시각화를 활용할 수 있습니다.
Power BI & Excel BI
모델링
활용방안
전처리된 데이터를 기반으로 데이터
추가 및 Mashup 지원
모델링을 통한 관계 형성으로 별도의
데이터셋에 대한 편리한 분석 지원
전처리
활용방안
사용자 친화적인 PowerBI Desktop
을 통한 간단한 ETL 기능 제공
데이터 탐색 및 변형, 확장을 손쉬운
GUI기반으로 제공함
분석/시각화
활용방안
PowerBI 에서 제공하는 시각화 차트
뿐만 아니라, R 스크립트 수행을 통
한 데이터 탐색 및 시각화 지원
24. Microsoft R vs SAS
- Microsoft R 은 성능 측면에서 SAS 대비 우수합니다.
테스트 환경
• DataSet :591컬럼, 10만~500만 행
21컬럼, 5000만 행
• SAS의 경우 SAS Grid Manger 회사에
의해서 설치 구성 테스트됨
• 스코링 테스트의 경우, 10배 많은 데
이터로 Linear regression예측 모델
사용함
테스트 결과
• SAS 대비 평균 42배 빠름
• 모든 테스트에서 SAS 보다 우월함
• 10~300배 정도 성능 차이 보임
• 대량의 데이터에서 더 큰 성능 차 확인
25. Microsoft R vs OpenSource R
– 비행기 도착지연 원인분석(일별, 주별) 선형회귀 분석 주) 시험 환경 : 4 core 랩탑, 16GB RAM 및 500GB SSD
파일명
압축파일
사이즈(MB) 건수
오픈소스R
(초)
Microsoft R
(초)
Tiny 0.3 1,235 0.00 0.05
V.Small 0.4 12,353 0.21 0.05
Small 1.3 123,534 0.03 0.03
Medium 10.7 1,235,349 1.94 0.08
Large 104.5 12,353,496 60.69 0.42
Big(full) 12,960.0 123,534,969 Memory! 4.89
V.Big 25,919.7 247,069,938 Memory! 9.49
Huge 51,840.2 494,139,876 Memory! 18.92
병렬 알고리즘활용, 오픈소스 대비
수십~수백배의 성능 확인사례
Public US Flight Data 활용
– 8 file-sizes; 천건에서 5억건까지, 29개 컬럼
– Big (full) = 22년간의 미국항공사 비행 데이터
선형회귀(Linear Regression) 모델 분석
기타 사례
빠른 빅데이터 회귀분석 알고리즘
1) 듀얼코어 컴퓨터로 13GB, 1억2천만의 데이터, 30개
변수의 logistic regression 을 45초 내에 분석
2) 쿼드코어 8GB, 데이터 사이즈에 따른 선형회귀분석
성능 비교 (오른쪽 표)
26. Microsoft R vs SAS
2. Microsoft R 은 유연한 확장성을 제공합니다. (Hadoop…)
Open Source R 기반 / 무료 /최적화
• Built-In Analytics • Microsoft R Server • Microsoft R Server
for Hadoop on
Redhat
• Microsoft R Server
for Teradata DB• Standalone Server for Redhat Linux
• Microsoft R Server
for SUSE Linux
27. $480
$2,230
$120
Microsoft Tableau Oracle
Self-service BI peruser
In-memoryacrossallworkloads
클라우드와 온프라미스의 일관된 서비스 제공
built-inbuilt-in built-in built-in built-in
at massivescale
0 1
4
0 0
3
34
29
15
5
22
6
43
2220
18
49
3
0
10
20
30
40
50
60
80
69
70
1 2 3 4 5 6
SQLServer Oracle MySQL SAPHANA TPC-H
Oracle
is #5#2
SQLServer
#1
SQL Server
#3
SQLServer
WHY Microsoft (SQL Server 2016: Everythingbuilt-in)
28. WHY Microsoft (경쟁사 비교)
Microsoft R 은 End To End 솔루션 제공을 통해, 고급 분석 뿐만 아니라 데이터 저장, 처리, 분석 및 시각화 까지를 모
두 통합된 환경에서 비용 효율적으로 제공합니다.
다양한 데이터 infra 로
부터 분석, 시각화까지
단일 분석 플랫폼 제공
빠르고, 정확한 의사
결정 지원
하이브리드 클라우드,
재사용 가능한 Code,
더 적은 제약사항
24/7 지원,
SQL 2016에 RRE 포함
및 지원
29. Hybrid 빅데이터 플랫폼 구성
웹 사이트 로직 앱 알림 허브
타 시스템연동 및 경고/알림
IoT 센서 및 디바이스
스위치 플러그 도어락열림감지
기타 …
업무 애플리케이션
스마트폰App 고객용Web 관리자용Web
Power BIDatazen(모바일/PC) Excel BI통합 대시보드
통합 분석
LOB고객CRM
기간계 시스템
CDR 로그 웹로그
비정형 로그 데이터 소셜 등 외부 비정형 데이터
EventHub
Cloud 게이트웨이 Cloud ETL 도구
Data Factory
On-Premise ETL 도구
SQL Server Integration Services
Microsoft Analytic Platform System (APS)
On-Premise DW Appliance
HDInsight
Cloud Hadoop 서비스
SQL DW 서비스
Cloud DW 서비스
Blog Storage
Cloud 기반의 저장소
Azure Machine Learning
Cloud 기반 고급분석 도구
Microsoft R Server
On-Premise 고급분석 도구
Cloud 기반
빅데이터 플랫폼
On-Premise 기반
빅데이터 플랫폼
Hybrid
형태의
구성
Web REST API
모델 배포
Web REST API
R Interface 배포
Microsoft R Server
Cloud VM 기반 고급분석 도구
Web REST API
R Interface 배포
Stream Analytics
실시간 데이터 분석
30. 2. 다양한 Microsoft Advanced Analytics 사례
Finance Insurance
Healthcare & Pharma Digital Economy Analytics Service Providers
Manufacturing & HighTech
26
31. Azure Machine Learning을 이용한 예측분석 기업고객 사례 – 제조/서비스 영역
출판일 분류 고객 사용 사례
2015/12
유틸리티/
전력생산예측
ServusNet
기존 : 일일 날씨예보를 활용한 풍력발전 예보 솔루션은 Farm 수준의 예보만 지원
현재 : 클라우드 기반 End-to-End 솔루션으로 전환, 제품군 확대, 글로벌 차원의 다수의 풍력발전 Farm 포트폴
리오와 고객을 지원
2015/10
서비스/
마케팅
OpenField
OpenField는 유명 축구클럽/스포츠/공연장 솔루션을 공급하는 선도 데이터관리 기업.
현재 : Contextual 마케팅 솔루션에서 티켓 구매고객 예측, 티켓 구매고객의 참석 예측을 통해 No-Show를 예
방하고 이익 극대화
2015/09
금융/
예방정비
Diebold
기존 : 사전 계획되지 않은 장비 다운타임은 심각한 비즈니스 장애이며, 매출 감소, 갑작스러운 수리비용, 고객
불만족 야기
현재 : IoT의 발전과 더불어 이 문제를 정기적/연속적인 장비 상태 모니터링과 연계한 예측정비 관점에서 접근
할 수 있게 됨
2015/06
유틸리티/
수요예측
Genscape
Genscape는 에너지 시장에서 데이터와 인텔리전스를 공급하는 기업임. 수일에 걸친 수요예측 모델 개발 Pilot
을 수행함.
2015/03
유틸리티/
부하예측
eSmart Systems
eSmarts는 노르웨이의 유틸리티 고객을 위해 스마트 그리드/미터용 소프트웨어를 개발함. 최소단위(미터레벨)
에서 상위 집계레벨까지의 에너지 부하를 예측하고, 이에 따라 병목 예측을 수행, 그 결과물을 자동 부하 분산
을 위한 최적화 알고리즘에 활용함.
2014/09
유틸리티/
스마트빌딩
Carnegie Mellon
University
Carnegie Mellon 대학은 Azure과 PI System™ (MS의 글로벌 ISV인 OSIsoft사의 제품)을 이용하여 건물 유지
및 에너지 비용을 절감하고자 하였음. 이제 CMU는 Azure Machine Learning을 추가하여 고장탐지, 진단 등 운
용효율화 측면의 개선을 실행함
2014/08
제조/
예방정비
ThyssenKrupp
ThyssenKrupp Elevator는 서비스 안정성에 집중함으로서 경쟁력을 확보하였음. IoT와 ML의 잠재력을 끌어냄
으로써, ThyssenKrupp 은 경쟁사가 제공하지 못하는 예측 및 사전정비를 서비스 내에 실현하였음
32. Azure Machine Learning을 이용한 예측분석 기업고객 사례 – 제조/서비스 외 영역
출판일 분류 고객 사용 사례
2015/12
서비스/
HR
Russell Reynolds
Associates
기존 : 인재채용 검색은 노동집약적이고 DB 데이터에 의존하여 직접 쿼리를 작성하여 수작업 분석
현재 : MS의 빅데이터/고급분석 기술을 활용하여 정형/비정형 데이터 검색시, 머신러닝 기반 “인재 추천“ 정
보를 활용
2015/11 유통/딥러닝 Coco-Cola
Coca-Cola Company와 Universal McCann이 MS의 딥러닝 지원 기술을 사용하여 최첨단 마케팅 캠페인을 수
행한 사례
2015/08
의료/
진단기술
Optolexia
안구 이동 추적데이터와 클라우드 기반의 MS Azure Machine Learning으로 구축한 분석엔진을 활용함으로
써, Optolexia는 학교에서 난독증 학생들을 현재의 검진방법보다 훨씬 빠르게 식별 (진단기술)
2015/06
공공/
고객이탈분석
Tacoma Public
School
소프트웨어를 이용해 어떤 학생이 중퇴할 것인지 예측한 사례 (고객이탈분석) Tacoma, WA의 한 공립학교의
명성은 얼마 전까지만 해도 그다지 좋지 않았으나, ML 기법을 활용하여 극적인 전환을 하게 됨
2015/05
서비스(학술)/
마케팅
Mendeley
연구자 소셜 문서 플랫폼에서, 핵심 사용자를 예측하기 위한 모델을 만들어 이메일 타겟 마케팅을 실행하고
사용자층 확대.
2015/04
의료/
수요예측
Gaffey Healthcare
보험사가 고객 클레임 지급을 하기 위해 수작업 데이터수집 인력이 필요한지를 예측하고, 보험사 지급 예정
일을 예측함으로서, 병원 고객사에게의 클레임 지급을 자동화하여 운영 효율을 개선하였고, 그 결과 현금흐
름을 개선하고 원가를 절감함.
2015/02
의료/
진단기술
Aerocrine
기존 : Aerocrine의 모니터링 도구는 효과적으로 천식을 진단/치료하는데 쓰이나, 현실 환경에서의 자그만 변
화에 민감함
현재 : 클라우드 기반 분석 솔루션을 이용해 진단 안정성을 높여, 전세계 수백만 천식환자가 혜택을 보게 됨
2014/12
유통/
마케팅
JJ Food Service
주문하려는 상품이 이미 쇼핑 카트에 담겨져 있는 것이 고객이 원하는 바임(개인화추천). JJ Food Service의
고객들은 온라인이나 전화로 주문시 매번 그러한 사용자 경험을 하고 있음. 이는 MS의 Azure Machine
Learning과 Dynamics AX를 잘 활용한 결과임.
2014/12
유통/
마케팅
Pier 1 Imports
유통업체인 Pier 1 Imports는 데이터 인사이트를 통해 고객과 더 연결되기를 원함. 이를 위해 예측분석 솔루
션을 검토하였고 클라우드 기반의 MS Azure Machine Learning과 Power BI를 접목하였음.