3. 시장 분석
자체 보유 서버는 줄고 클라우드로 서버 사용량 증가
인프라 트렌드 변화
Physical
Machine
IDC Cloud
물리 머신을 직접 구매해서 자사
전산실을 구비해야 해서 시설
투자비의 허들이 높음
전문 데이터센터가 나오면서 자체
전산실을 줄이고 전문 시설에
맡기면서 서비스의 안정성을 높임
클라우드 서비스 시대가 도래하여
개인이 쉽게 서버를 임대하여
사용하여 초기 시설비용을 줄임
4. 모바일 트래픽 추이 글로벌 DCIM매출 추이
시장 분석
인프라 수요 급증
모바일 기기 사용량 증가
인공지능/머시러닝 리소스 증가
동영상등의 대용량 트래픽 증가
IDC수요 증가
DCIM : Data Center Infrastructure Management
쉽게 도입이 가능한 클라우드 및 IT 서비스 증가로 글로벌 IT인프라의 수요가 급증하고 이에 따른
인프라 운영의 니즈가 급증
5. 시장 분석
• 기업당 1시간 장애로 인한 평균 손실은 약 6억원
• 기업당 연평균 장애 건수 약 7회
서비스 장애로 인한 피해 규모
https://axcient.com/downtime-calculator/
6. 시장 분석 (구인난)
• 인프라 전문가 부족으로 장애 책임 부담, 연중 무휴 단순 작업으로 인한 기피
• 효율적인 인프라 설계 가능자 부재로 빅데이터 분석 및 효율적 튜닝등의 전문 운영 불가
• IT기술 발전 및 대규모 투자로 신규 비즈니스가 확장되어 인프라 관리자 수요 폭증
인스톨 배포
감시
장애대응
점검 장애분석
튜닝
보고
인프라 관리자 수요에 비해 공급이 턱없이 부족
7. 데이터센터 구인 NHN 전용 데이터센터 ‘각’
시장 분석(구인난)
구인난
비용효율화를 위해 지방에 IDC를 건설, 인프라 인력 수요는 급증하나 운영 인력 부족현상
8. 시장 분석(솔루션)
대부분의 솔루션은 한 가지 기능에만 집중되어 SE의 업무는 여전히 줄어들지 않음
인스톨
배포
감시
장애대응
점검 장애분석
튜닝
보고
솔루션의 한계
10. 개요
AI 가 머신 러닝을 통해 서버 시스템의 운영을 어드바이스 하고,
자동으로 운영을 대행하는 서비스
Our goal
- Machine Learning을 통해 서버 장애를 사전 예측하여 해결 방안을 미리 제안
- Logistic Regression Algorithm을 통한 장애 시점 및 장애 이전 시계열 데이터를 학습하여
학습된 데이터의 이전 전조 증상을 자동으로 찾는 기술 구현
- 스스로 생각하는 자동 운영으로 무인 데이터센터의 구현
giip System Advisor
- 서버를 giip에 등록하기만 하면..
- AI 가 스스로 용도를 판단하여 관리자에게 모니터링 항목 및 튜닝 제안, 백업등 운영 제안
- 관리자는 원클릭으로 각종 모니터링 항목 등록 및 변경, 튜닝을 위한 설정 변경, 백업을
자동으로 처리함
서버 관리자의 메리트
- giip를 이용하면 advisor가 새로운 기술에 대한 제안 및 정보 제공을 하여 엔지니어가 같이
학습하면서 성장하며 기업 맞춤형 Knowledge base를 축적할 수 있음
Definition
11. 개요
All works of SE
서버를 등록하면 giip AI가 제안하고 유저의 판단에
따라 운영 작업을 진행
운영자동화
설치 배포 감시
장애
대응
튜닝
수시
체크
관리자
자동화
· ·Cloud
Server
Oversea
Servers
Virtual
Server
Legacy
Server
백업운영
PA NSA API
ML CQE MQE
비정형로그 통계 KB
A.I. 스스로 생각하는 자동 운영
• 설치,배포,감시,운영,백업,장애대응,
튜닝,수시체크 등 운영업무를 스크립트
기반으로 자동화함
• 서버를 연결하면 PA(Process Analyzer)와
NSA(Network Status Analyzer)가 프로세스
및 통신을 분석하여 자동으로 용도 파악 및
사용량 파악, 튜닝 제안
• ML(Machine Learning)을 이용하여 장애 패턴
학습 및 서버 튜닝 학습
• CQE(Command Queue Engine)으로
관리자의 운영작업/장애 대응 자동화 및 작업
이력, 작업 내역 자동저장, 이상시
Rollback가능
• MQE(Message Queue Engine)으로 서버
상태 이상 및 장애 대응 내역, ML로 학습한
장애 예휴 판단시 알람 제공
• Couchbase NoSQL을 이용한 비정형 데이터
저장(미국 CIA채용, AWS채용, IBM
Cloudant기반기술)
• ML로 학습된 KB를 기반으로 주기적인 리스크
권고 및 대응안 제시
• 16000대 서버로 온라인 게임 서비스 중인 일본 G게임사의
2000대의 서버 포함 누적 4000대 이상, 동시 2500대 이상의
자동 운영 경험
12. Architecture
개요
System
Engineer
SP own Service
Custom
Dashboard
OpenAPI
CQE
(Command Queue
Engine)
MQE
(Message Queue
Engine)
OpenAPI
TMF
(Trigger Management
Function)
MSF
(Message Sender
Function)
ASR
(Automation Script
Repository)
SCHD
(Scheduler)
RD
B
LogD
B
DCUB
E
DSF
AMF
(Authentication Mapper
Function)
SMTP
RMF
(Resource Management
Function)
LGF
(Log Gathering Function)
ServiceMarketPlace
GLB Service
CDN Service
Forensic Service
Infra. Service
BasicGUI
MLE
(Machine Learning
Engine)
3rd Party Solution
16. 개요
주요 공략업종
❑ 새로운 기술 및 패러다임 변경은 엔지니어의 신기술 학습 및 작업 부담이 가중됨
❑ 엔지니어가 신기술을 잘 사용할 수 있는 어드바이저 필요
Key
Findings
분야 기회 타겟 사례
게임
교육
SMB
대기업
쇼핑몰
▪ 잦은 서비스의 추가 및 종료로 SE의 업무 부담 큼
▪ 다양한 외부 서비스 및 업체의 연동으로 관리포인트 증가
▪ 시스템 노후화 및 입시철 특수등의 폭주 대응 미비
▪ 이러닝 시스템 도입후 전문 관리 필요
▪ 비용 절감(인프라,S/W)
▪ Active DR 및 Cloud DR등으로 DR 패러다임 전환
▪ 지속적으로 증가하는 스타트업 기업의 수요 (2016년 약 3만개)
▪ 빠른 확장 및 글로벌화가 용이
▪ 워게이밍넷
▪ 라이브플렉스
▪ EBS
▪ 파고다어학원
▪ 동부화재
▪ 엘지유플러스
▪ 우먼스톡
▪ hotdeallink (해외 직구 채널링)
▪ P2P 기업
▪ 스마트포캐스트
▪ 직구/역직구 시장확대로 글로벌화 가속
▪ 쇼핑몰의 채널 다각화로 복잡한 연계 서비스 증가
공공
▪ 빅데이터, 머신러닝등으로 대용량 자료 보관 이슈
▪ 모바일 서비스로 공공지원 서비스 이용자 급증
▪ 한국고용정보원
▪ NIPA, KISA
새로운 트렌드 및 신기술이 도입되면서 인프라 담당자들에게 요구되는 기술력과 업무량이 늘어
해당 분야에 도입 기회가 증가
18. 대규모 시스템 소규모 시스템(SMB)
경쟁력
비용절감 효과
IT 인프라 운영 비용 최소화 및 TCO 절감
As-Is To-be
5,843만원/월 110만원/월
98%
As-Is To-be
25,658만원/월 5,500만원/월
80%
인프라 비용
운영 솔루션
인건비
인프라 비용
운영 솔루션
인건비
인프라 비용
운영 솔루션
인건비
인프라 비용
운영 솔루션
인건비
19. 기존 방식 giip
경쟁력
인프라 비용의 절감
giip의 AI 어드바이저가 고객 상황에 적합한 인프라 서비스를 제안 하고 쉽게 경쟁력있는 인프라
서비스로 이동할 수 있으며 단일 UI에서 추가 노력 없이 운영이 가능하여 비용 절감 및 변경된
UI등의 학습 시간을 절약
IaaS
+
Analytics
IaaS
+
DBaaS
IaaS
+
SNS + WPM
IaaS
+
SNS + WPM
IaaS
+
Analytics
Management Advise
20. 서비스 구분 서비스 내역 SE 클라우드 서비스 고급형 비고
고정비용 기본 가격(천원/대) * 1000대 기준 35,000 17,500 250,000 50,000 인건비
이력관리 기술지원이력관리 417 외부 솔루션 구입 필요 0 0 ITSM
모니터링
기본 모니터링(CPU/Memory/Disk/Process) 1,167 O 0 0 NMS 솔루션
URL모니터링 12,500 AWS(추가비용) 0 0 URL모니터링 솔루션
로그, 이벤트모니터링 8,333
AWS, Azure, GCE 외 다수
(추가비용 발생) 0 0 로그분석솔루션
24시간 감시 80,000
AWS SNS등
유료 부가 서비스 0 0 SE 16명 24시간
OS운영 OS 기본 운영(설치, 패치) 0 초기 VM생성시 OS설치만 0 0 SE
파일 백업 및 리스토어 관리 4,167
이미지 백업으로 지원
(추가비용 발생) 0 0 backup solution
웹서버운영
웹서버 기본 운영(구축 및 설정 변경등) 0 고객이 직접 해결 0 0 SE
웹서버이중화 30,000
AWS, Azure, GCE등
메이저
클라우드 (추가비용 및
유저 가 직접 작업) 30,000 5,000 LB 임대, giip는 GLB
웹서버튜닝 20,000 외부 솔루션 구입 필요 0 0 SE 전문가 비용
DB서버운영
DB 기본 운영(설치, 백업, 리스토어, 패치등) 0 서비스로 설치만 지원 0 0 SE
DB 최적화 튜닝 60,000 외부 솔루션 구입 필요 0 0 DB 전문가 비용
DB 이중화 0 O 0 0 DB 전문가 비용 포함
웹방화벽 웹방화벽 설치 및 운영 5,000 외부 솔루션 구입 필요 0 0 솔루션
합계 256,583 105,117 280,000 55,000
경쟁력
솔루션 및 인력 비용 절감
giip는 현재 비용의 20% 이하로 최고 수준의 인프라 서비스를 지원
단위 : 천원, - : 미지원, 0또는 숫자 : 지원 및 금액(0인 경우 다른 금액에 포함된 것임)
대규모 조정
21. 서비스 구분 서비스 내역 SE 클라우드 서비스 외주운영 비고
고정비용 인건비 등 기본비용 (천원/대) * 20대 기준 3,500 3,500 5,000 1,000 인건비
이력관리 기술지원이력관리 417 외부 솔루션 구입 필요 0 0 ITSM
모니터링 기본 모니터링(CPU/Memory/Disk/Process) 583 O 0 0 NMS 솔루션
URL모니터링 250 AWS(추가비용) 0 0
URL모니터링
솔루션
로그, 이벤트모니터링 4,167
AWS, Azure, GCE 외 다수
(추가비용 발생) 0 0 로그분석솔루션
24시간 감시 40,000
AWS SNS등
유료 부가 서비스 0 0 SE 8명 24시간
OS운영 OS 기본 운영(설치, 패치) 0 초기 VM생성시 OS설치만 0 0 SE
파일 백업 및 리스토어 관리 417
이미지 백업으로 지원
(추가비용 발생) 0 0 backup solution
웹서버운영 웹서버 기본 운영(구축 및 설정 변경등) 0 고객이 직접 해결 0 0 SE
웹서버이중화 600
AWS, Azure, GCE등 메이저
클라우드 (추가비용 및
유저 가 직접 작업) 600 100 LB 임대, giip는 GLB
웹서버튜닝 2,000 외부 솔루션 구입 필요 0 0 SE 전문가 비용
DB서버운영
DB 기본 운영(설치, 백업, 리스토어, 패치등) 0 서비스로 설치만 지원 0 0 SE
DB 최적화 튜닝 6,000 외부 솔루션 구입 필요 0 0 DB 전문가 비용
DB 이중화 0 O 0 0
DB 전문가 비용
포함
웹방화벽 웹방화벽 설치 및 운영 500 외부 솔루션 구입 필요 0 0 솔루션
합계 58,433 14,617 5,600 1,100
경쟁력
Many solutions vs. outsourcing vs. giip
직접 운영하기에 부담이 큰 SMB 마켓에서의 타사와의 80%이상의 비용 경쟁력 확보
단위 : 천원, - : 미지원, 0또는 숫자 : 지원 및 금액(0인 경우 다른 금액에 포함된 것임)
22. 경쟁력
다른애들이
못따라올 핵심
기능만 나열
● Simple Management
○ 관리자의 작업을 최소한으로 할 수 있는 획기적인 어드바이저 설계
● Free Customizable UI/UX
○ RESTful OpenAPI로 자유롭게 대시보드 제작이 가능
● Script Market Place
○ 유저의 운영 Script를 판매할 수 있는 신개념 market place제공
● Own Knowledge Base
○ 초급 엔지니어로도 고품질의 운영 퀄리티 제공 및 엔지니어의 성장기회 제공
● Real Machine Learning
○ Logistic Regression Method를 활용, AWS ML 및 Spark 등 연동가능한 시스템 운영 학습
기술
기술 경쟁력
24. On-premise & SaaS reference
시스템 관리 및 네트워크 기기 관리를 메인으로 운영 자동화 제공
실적
전 세계 120개국에 판매된 도어폰 및 기타 제품들의 글로벌 IoT연동 플랫폼의
설계 및 컨설팅, 자동화 솔루션 도입, GLB로 모듈 서버의 로드 밸런싱
4개의 인프라 관리 툴을 통합한 통합 관리 툴의 제공 및 기존 툴로는 감지가
매우 어려운 장애 상황에서도 대응 가능한 서비스 제공
다양한 환경의 온라인 게임 인프라 관리용으로 서비스 제공
25. 로보어드바이저 서비스 업체인 S사에서는 개발자가 시스템을 운영하면서 신규 개발 및 장애대응을 모두 하면서
업무 효율 하락
운영 토털 서비스
실적
WEB
WEB
DBMS
System
Manager
MQE 메시지를 보고
고객이 직접 소스 수정
선택이 필요한
내용의 전달 및
추천
MQE
• 시스템 자원 정보 수집
• JOB 프로세스 감시
• Server Farm 단위 JOB LB
• 시스템 로그 모니터링
• 데이터 표준화(JSON)
CQE
• DNS 설정
• 서버 추가/삭제/운영
• 시스템 설정 변경
• 백업 스케쥴링
• 자동 운영
WEB
WEB
DBMS
• 시스템 운영 경험이 낮아도 높은 수준의 시스템 운영 가능
• 서비스가 늘어도 추가 노력 없이 추가 가능
• 자동 튜닝 및 개선 제안으로 시스템의 효율적인 사용
개선 효과
26. 페이지 로딩이 느린 이슈가 있는 이커머스 업체인 W사는 자체적으로 해결하지 못하여 빈번한 서비스 정지 및
성능 저하 이슈 발생
DBMS Tuning
실적
MQE
• WEB 서버 Connection Status
확인
• WAS Thread count 확인
• DBMS Lock, slow query 확인
WEB
WEB
DBMS
System
Manager
MQE 메시지를 보고
고객이 직접 소스 수정
평균 반응속도 1초, 최대 11초 평균 반응속도 0.14초, 최대 4초
Mail로
병목 Query
전달
• 지속적인 DBMS 병목 현상 감시로 성능저하 요소를 찾아 해결 방안 제공
• DBMS 이슈시 발생하는 다양한 서버간의 상태 정보를 고객에게 알려 소스 수정 포인트 알림
개선 효과
27. 머신러닝, 비트코인, 고속 렌더링등의 수요가 늘고 있는 GPU Farm을 만들어 고객에게 서비스하는데 인프라의
관리에서부터 JOB관리까지 giip에서 제공
GPU 렌더링 팜 서비스
실적
MQE
• 시스템 자원 정보 수집
• JOB 프로세스 감시
• Server Farm 단위 JOB LB
• 시스템 로그 모니터링
• 데이터 표준화(JSON)
GPU
Server
Radeon rx 480
Radeon rx 480
GPU
Server
Radeon rx 480
Radeon rx 480
GPU
Server
Radeon rx 480
Radeon rx 480
Tablet
pc
Laptop
Smart
phone
CQE
• Server Farm 단위 JOB LB
• 장애시 자동 복구
• 신규 시스템 자동 설정
• 백업 스케쥴링
• 자동 운영
Service
Provider
Control UI
Billing UI
Statistics UI
• 고객은 UI만 개발함으로서 GPU Cloud Service를 제공할 수 있어 빠른 최신 기술의 서비스 런칭이 가능
• 서비스에 필요한 모든 Measuring data 및 Control 을 giip엔진에서 제공으로 개발 공수 절감
• JOB 제어 및 분산, 서버당 GPU 상태정보 취득등 giip만의 고유한 기능 제공으로 타사대비 경쟁력 확보
개선 효과
28. 시스템 구입시 번들로 딸려오거나 시스템 증설시 라이선스 이슈로 구매하지 못하는 등 인프라 증설에 따른
관리툴 및 관리 포인트가 늘고 복잡해지는 상황을 개선
시스템 통합 감시
실적
MQE
• 시스템 자원 정보 수집
• 상이한 관리툴의 통합 모니터링
• 마우스액션등 시나리오 모니터링
• 시스템 로그 모니터링
• 데이터 표준화(JSON)
Server
Server
Server
Tablet
pc
Laptop
Smart
phone
CQE
• 통합 명령
• 장애시 자동 대응
• 다른 환경의 신규 서버 통합 설정
• 백업 스케쥴링
• 자동 운영
End User
Dashboard
Control UI
Statistics UI
• 고객은 UI만 개발함으로서 다양한 환경의 인프라 관리 시스템 탄생
• 기존 관리툴에서 취하는 액션의 자동화 처리
• 서버 접속 시간 절감 및 운영 작업 시간 절감으로 TCO 절감효과
개선 효과
Server
29. 글로벌서비스를 위해 소스의 배포 및 데이터의 싱크에 표준 CDN 기술을 활용하여 배포 자동화 및 배포 관리를
giip에서 제공하여 간단히 배포 시스템을 구축
배포자동화
실적
MQE
• 전세계 클라우드/레거시 서버 상태
통합 관리
• 유저 환경에서 배포 자동 확인
• 시스템 로그 모니터링
• 데이터 표준화(JSON)
Origin
Server
Edge
Server
Tablet
pc
Laptop
Smart
phone
CQE
• CDN기술을 활용한 파일 전송
• 전세계 클라우드/레거시 서버 지원
• 전송실패 알림 및 재전송 지원
• 스케쥴 전송 및 수동 전송 지원
• 고객은 UI만 개발함으로서 배포 시스템 구축
• 배포에 필요한 파일 업로드 및 배포 자동화, 스케쥴 관리 및 재배포등 필요한 기능을 쉽게 적용
• 전 세계의 다양한 환경의 서버를 통합 관리 및 배포 관리
개선 효과
Edge
Server
Edge
Server
End User
Dashboard
Control UI
Statistics UI
30. 글로벌 IoT 통합 관리
실적
홈오토시스템 업체인 C사의 전세계 120개국에 있는 수 만대의 다양한 물리/클라우드 환경의 IoT 장비 및
관리 서버를 중앙에서 제어
하드웨어 폴트시 자동으로 그 나라의 A/S담당자에게 통지
국내 IoT 서버
해외 IoT 서버
클라우드 IoT 서버
국내 관리 서버
지역 담당 엔지니어 중앙 관리자
31. NMS 자동화
다양한 서비스를 하고 있는 D사에서는 각 서비스별 다른 NMS를 사용하고 있고, 특정 NMS는 장비 추가시 설정
비용이 별도로 들어 운영 비용 이슈 및 여러 화면으로 관리해야 하는 문제 발생
실적
giip 도입으로 NMS에서 제공하는 정보를 API로 취득하거나 직접 SNMP를 통해 정보를 취득하고 장비 추가시
간단한 설정 추가만으로 쉽게 통합관리가 가능
32. 실적
장애 추적 시스템
Customer
System
Manager
Web
Server
Service
WAS
DB
MQE
• Login Test
• Page Response Check
• Payment Test
• Community Text Crawling
• Process
• Latency
• Connections
• Network
• IO
• Memory
• DB Lock
• Wait_Time
• Thread Count
• IO Latch
CQE
Command
Repository
Web
Server
Service
WAS
DB
Fault
Report Form
Repository
Scenario monitoring
Automatic Incident
Processing
Report &
Machine Learning
Machine
Learning
MQE
Update exp. Knowledge
Base
Trigger
Repository
• giip 가 스스로 원인을 찾아서 고객에게 알려주고 대응도 처리하여 장애 대응 속도 향상
개선 효과
운영으로 솔루션 구매 2년마다 약 40억, 운영인건비 2억/월을 소비하지만, 연평균 200회 장애 발생으로
서비스 정지 및 브랜드 가치 하락
36. Basic Feature
기능
❑ 엔지니어가 필요로 하는 모든 정보 취득
❑ 엔지니어의 업무에 필요한 모든 액션 및 리포팅 자동화
Key
Findings
IT Asset Management Action
❑ Basic server information
❑ IP usage
❑ Disk usage
❑ Domain
❑ Resource usage
❑ Custom server information
❑ Send command
❑ Send Script
❑ Triggering
❑ Monitoring
❑ Gather system message
❑ Gather custom message
Messaging
❑ Send Notification
❑ Using Mail, MMS
❑ Support send to RESTful
API
❑ Send custom message
❑ Send log message
38. 기능
Gather all system information for bigdata analyze
통합 UI의 중앙 시스템 관리
서버 접속없이 대규모 서버의 감시, 운영 가능
모든 서버 액션을 중앙에서 처리
중앙 로깅으로 전체적인 장애원인 분석 가능
커스텀 어플리케이션 및 모바일 디바이스, 앱의 로그까지 저장 및 분석 가능
40. See and go as human
기능
❑ 사람의 액션을 최소화
❑ 모니터링 데이터로 인사이트 획득 및 예측
Key
Findings
시나리오 모니터링 액션 로그 모니터링
❑ 웹 서비스 로그인 테스트
❑ 결제 테스트
❑ 앱 기동/액션 테스트
❑ 유저와 같은 환경
❑ 액션 결과 스크린샷
❑ 액션 결과에 따른 반응
❑ RESTful API를 이용한
로그
❑ 고객 니즈에 따라
가변필드 지원 (JSON)
❑ 로깅 데이터 그래프 지원
❑ 로깅 데이터의 이벤트
감지
❑ 비정형 데이터 저장
빅데이터 분석
❑ 로깅 데이터의 통계 분석
❑ NoSQL을 이용한 방대한
데이터 처리
❑ 비정형 데이터 분석 처리
42. Roadmap
Our goal is platform for SE
• ITAM Function expand
• Domain management expand
• Dashboard
• Xen auto install
• CDN Automation (3rd party)
• GLB Automation (3rd party)
• Server forensic service(3rd party)
• Openstack API Support
• Public Cloud Service API Support
• Docker Management
• CHEF Management
• Big-data System Log Analytics (3rd party)
• Script Market Place
• Chinese Version
• giip Log Analytics (Machine Learning)
• giip Advertisement Platform
• Global Support Center
• IT Service Market Place
• Global Infra. Market Place
• Solution Market Place
• Expand Global Channel
Analysis Prediction Ecosystem
2016 2017 2018 2019
44. 운영
Concept - Reduce work for SE
서버에 Agent를 설치하면 모든 준비는 끝
System
Manager
Agent Install
Server
45. Concept - Just follow virtual system advisor
주기적으로 Virtual system advisor가 해주는 어드바이스를 참고로 원클릭으로
모니터링, 튜닝, 관리, 장애대응 가능
System
Manager
Mail from virtual system advisor
Server
Monitoring Advise
Tuning Advise
Maintenance Advise
One-click
Implementation
Gather system information
Knowledge
Base
운영
46. 운영
시나리오
유저와 giip A.I. 와의 메일 인터랙션으로 인한 쉬운 운영
giip A.I.
서버 등록 안내
서버 감시 안내
User Action
Google Login
서버 등록
서버 감시 등록
추가 수집 안내
추가 수집 등록
운영 어드바이스
조언에 따른 액션
Machine
Learning
47. 운영
로그인
Google 로그인(On-premise Edition은 독립 Login 지원)
giip A.I.
서버 등록 안내
서버 감시 안내
User Action
Google Login
서버 등록
서버 감시 등록
추가 수집 안내
추가 수집 등록
운영
어드바이스
조언에 따른
액션
Machine
Learning
48. 운영
로그인
로그인후 아무것도 설정되지 않은 상태
giip A.I.
서버 등록 안내
서버 감시 안내
User Action
Google Login
서버 등록
서버 감시 등록
추가 수집 안내
추가 수집 등록
운영
어드바이스
조언에 따른
액션
Machine
Learning
49. 운영
안내메일 수령
서버 등록 매뉴얼이 담긴 안내 메일 자동 발송
giip A.I.
서버 등록 안내
서버 감시 안내
User Action
Google Login
서버 등록
서버 감시 등록
추가 수집 안내
추가 수집 등록
운영
어드바이스
조언에 따른
액션
Machine
Learning
50. 운영
서버 등록
메일의 URL을 클릭하면 github에 있는 서버 등록 매뉴얼로 이동
giip A.I.
서버 등록 안내
서버 감시 안내
User Action
Google Login
서버 등록
서버 감시 등록
추가 수집 안내
추가 수집 등록
운영
어드바이스
조언에 따른
액션
Machine
Learning
51. 운영
서버 등록
github 매뉴얼을 따라 서버 등록 (소요 시간 1분)
서버 등록
직후에는
아무
정보도
없음
giip A.I.
서버 등록 안내
서버 감시 안내
User Action
Google Login
서버 등록
서버 감시 등록
추가 수집 안내
추가 수집 등록
운영
어드바이스
조언에 따른
액션
Machine
Learning
52. 운영
추가 안내 메일 수령
서버를 등록 한 뒤, 시간이 지나면 추천 JOB을 메일로 안내
giip A.I.
서버 등록 안내
서버 감시 안내
User Action
Google Login
서버 등록
서버 감시 등록
추가 수집 안내
추가 수집 등록
운영
어드바이스
조언에 따른
액션
Machine
Learning
53. 운영
자동 체크 추가
이메일의 URL을 클릭하면 모니터 항목을 자동으로 추가
giip A.I.
서버 등록 안내
서버 감시 안내
User Action
Google Login
서버 등록
서버 감시 등록
추가 수집 안내
추가 수집 등록
운영
어드바이스
조언에 따른
액션
Machine
Learning
54. 운영
시스템 어드바이스 메일 수령
수집된 정보를 기반으로 다양한 어드바이스 메일이 자동으로 도착
모니터링 상태중
이상 징후 알림
추가 모니터링
항목 추천
수집정보를 기반으로
보안/튜닝/백업등의
어드바이스를 진행
giip A.I.
서버 등록 안내
서버 감시 안내
User Action
Google Login
서버 등록
서버 감시 등록
추가 수집 안내
추가 수집 등록
운영
어드바이스
조언에 따른
액션
Machine
Learning
55. 운영
지속적인 장애 대응 및 튜닝
메일 어드바이스를 기준으로 스스로 선택하여 운영 및 튜닝 지원
시스템 관리자를 도와주는 전문 인공지능 엔지니어
Customer
System
Manager
Web
Server
Service
WAS
DB
MQE
Login Test
Page Response Check
Payment Test
Community Text Crawling
Process
Latency
Connections
Network
IO
Memory
DB Lock
Wait_Time
Thread Count
IO Latch
CQE
Command
Repository
Web
Server
Service
WAS
DB
Fault
Report
Form
Repository
Scenario
monitoring
Automatic Incident
Processing
Report &
Machine Learning
Machine
Learning
MQE
Update exp. Knowledge
Base
Trigger
Repository
58. DR(Disaster Recovery) 구성
타 센터가 단순 DR을 위한 스탠바이가 아닌 DR의 자원을 부하분산 및 재난 관리까지 가능한
구성으로 제공이 가능하며, Bittorrent Sync 와 연동하여 서비스를 구성하거나 고객이 보유하고
있는 BCP 솔루션의 검증 및 이중 감시용으로 활용
활용
S5000(Active)
Active-Active 구성
자사서버 클라우드 서버자사서버 클라우드 서버
S5000(Stand-by)
Active-Active 구성
동기화된 파일의 더블 체크
서버의 상태 체크 및 관리
다양한 환경에서의
파일 동기화
Internet
59. RC(Root Cause) 분석
다양한 고객 환경에서 장애 등 이슈가 발생했을 때 시스템, 네트워크, 어플리케이션 전반에 걸친
시간축 기반의 데이터 수집을 이용하여 문제 발생 원인 파악에 도움을 주는 용도로 활용
Analytics
모든 레이어의 값을 상황별
시간값을 수집
고객의 모든 상황 분석 자료를
취합 후, 빅데이터 분석으로
문제 원인 분석
Internet
Server
OS
Network
Exchange + Domino
Server
OS
Network
Verse + Domino
활용
60. giip 서비스 이용으로 수집되는 시스템 운영 정보를 기반으로 시스템 이슈를 예측하여 빅데이터
분석으로 장해 예측 서비스(SFPS, System Fault Prediction Service) 제공
시스템 장애 예측 서비스 (2017.1Q 예정)
• 다양한 장해 패턴 정보 KB 공유
• 벤더의 공식 대응 KB를 장해 발생시
실시간 공유
• 사용자의 상황에 알맞은 벤더 매칭
• ML로 장해 이전 시점의 공통점
학습 및 예측
ML 처리
(Machine Learning)
• 서버의 장해 패턴 데이터 수집
• 서버간 데이터 상관 관계 수집
• 어플리케이션 정보 수집
• 다양한 시스템 외의 정보 수집
활용