목차
I. 환경 분석
II. 기능
III. 데모 시나리오
IV. 신속한 장애해결
V. 운영 자동화
VI. 운영 비용 절감
클라우드 도입은 조직, 프로세스, 운영 측면에서 다양한 변화를 필요로 하고 있습니다.
IT 리소스 소비와 구매방식이 변화하므로, 이에 적합한 새로운 관리 모델이 필요합니다.
“안정적인 서비스를 제공하고, 비용을 절감해야 되는데”
신규 인력을 채용하는 대신, AIOps는 프로세스를 개선하고 업무 효율성을 향상합니다.
“더 많은 엔지니어와 데이터과학자를 채용하는 것이 필요하지만,”
자동화를 해서 수작업을 줄이고, 복잡도를 관리하기 위해 관찰가능성을 사용합니다.
“시스템과 데이터는 계속 증가하고 복잡해지는데”
정확도 높은 알람과 이상탐지를 통해서, 근본원인을 분석하고 장애에 대응할 수 있습니다.
“부정확한 알람과 실수로 인해서, 피로도가 증가하고 비효율적인데”
2
전략
조직
프로세스
운영
환경 분석
관찰가능성, 이상탐지, 인공지능운영을 통해서 비용을 절감하고, 운영을 자동화할 수 있습니다.
기능
로그, 메트릭, 추적을 통합
네트워크, 보안 위험탐지 (SIEM)
기대효과
실시간으로 이상탐지
인공지능 기반의 근본 원인 분석
자동화, 최적화를 위한 예측
지능화된 알람
Digital Transformation을 고도화하고, 더욱 개선하기 위한 새로운 패러다임입니다.
기능
관찰가능성
Observability
이상탐지
Anomaly
Detection
인공지능 운영
AIOps
신속한 장애 해결
안정적인 고객 서비스 제공
운영 자동화
업무의 생산성과 만족도 향상
운영 비용 절감
데이터 기반의 의사결정
2
언급된 3가지 기대효과를 어떻게 달성하는지, 영역 별로 데모를 진행합니다.
4
실시간 이상 탐지
근본 원인 분석
점진적인 개선과 자동화
지능화된 알람
수집된 메트릭, 로그, 추적을 분석
신속한 대응 및 장애 해결
신속한 장애해결
자동화된 복구
SAP 이상탐지 및 예측
빅데이터 기반의 분석
인공지능 기반의 예측
데이터 기반의 의사결정
운영 자동화
운영 비용 절감 고도화 (Beta)
2
1
3
2
1
2
1
3
2
1
3
데모 시나리오
1 2
3
신속한 장애 해결
To-Be 프로세스
정확하고 정제된 알람을 생성함으로써, 피로도를 낮추고 업무 생산성을 향상
관찰가능성은 오토스케일과 오브젝트스토리지를 지원함으로써, 비용을 절감
문제를 정확히 이해하고, 신속하게 장애를 해결할 수 있도록 대시보드를 제공
As-Is
개선
포인트
1
5
관찰가능성과 네트
워크보안 위험탐지
문제를 이해하고,장애 해결
운영자
지능화된 알람 생성
메트릭 로그 추적이 통합되지
않아서, 분석이 어렵고 많은
시간이 소요
무분별하고 정제되지 않은
알람은 운영자를
혼란스럽게하고 피로도를
상승
시스템이 독립적으로 구축되어,
협업이 어렵고 프로세스가
단절됨
신속한 장애 해결
6
1
업무규칙과 머신러닝으로 알람을 개발하고,
실시간 알람 대시보드를 통해서 알람을 관리
시스템에서 발생하는 신호(사용률, 에러, 포
화)를 정확하게 식별해야만, 정확한 알람 측정
이 가능
지능화된 알람
신호(U S E) 대시보드
정확한 신호를 생성하면, 정제되고 정확한 알람을 개발하고 운영할 수 있습니다. 알람의 상태를
실시간으로 관리할 수 있는 대시보드를 제공합니다.
USE (utilization, saturation, errors)
신속한 장애 해결
데모 시나리오 1
메트릭, 로그, 추적 데이터를 결합하고, 다차
원적인 분석
멀티 태넌트를 지원하므로, 시스템을 효율적
으로 재사용하고 비용을 절감
SIEM(보안 정보 이벤트 관리)는 네트워크와
보안 위험을 탐지하고 식별
다수의 업무 규칙을 제공하고, 서버와 클라이
언트(사용자 PC)도 관리
관찰가능성
네트워크 보안 위험탐지
관찰가능성과 네트워크보안 위험탐지를 사용해서, 시스템 내부에 대한 이해를 높이고 신속하
게 장애를 해결할 수 있습니다.
운영 자동화
머신러닝을 사용해서 이상치에 대한 신뢰도와 중요도 정보를 제공
다양한 방법과 알고리즘을 사용해서, 원인을 정확하게 식별
운영자의 노하우를 반영해서, 이상탐지 결과를 지속적으로 향상
개선
포인트
근본원인분석
결과를 확인하고, 지속적인 개선
2
8
운영자
실시간 이상탐지
To-Be 프로세스
상세한 이상치 정보를 제공하지
않으므로, 수작업으로 이상치를
검색하는데 방법이 어렵고
시간이 소요됨
원인 분석 기능을 제공하지만,
자동화된 기능이 아니며 단순
추측인 경우가 대부분
시스템이 폐쇄적이고, 운영자의
노하우와 기능 추가가 어려움
As-Is
운영 자동화
이상치를 실시간으로 탐지
인공지능으로 이상치 등급을 측정하고, 이에 대
한 신뢰도를 제공
특정 시간대를 기준으로 발생한 이상치를 검색
과거부터 수집된 이상치에 대한 종합적인 데이
터를 제공
실시간 이상탐지
배치 이상탐지
2
9
실시간과 배치 이상탐지를 지원하며, 이상치에 대한 신뢰도를 제공한다. 신뢰도는 머신러닝 알
고리즘을 사용해서 측정된다.
운영 자동화
이상치에 일치하는 데이터 포인트를 예측
대략적인 범위(윈도우)와 함께, 개별 이상치
를 정확하게 지정
데이터 포인트에서 근본 원인을 상세하게 분
석
원인 분석에는 알고리즘과 머신러닝을 사용
하며, 추가 검증으로 정확도를 향상
이상치 선정
근본 원인 분석
2
10
이상탐지 후속절차로써 근본원인분석을 진행한다. 문제가 발생한 이상치를 정확하게 예측하며,
어플리케이션의 근본원인을 분석한다.
운영 비용 절감
관찰가능성과 이상탐지의 부족한 부분을 보완하고, 결과를 재검증
요구사항에 따른 다양한 대시보드와 리포트를 지원
신뢰할 수 있는 데이터 기반 의사 결정이 가능하도록, 우수한 정확도를 제공
개선
포인트
3
11
AB테스트 및 검증
데이터 기반의 의사결정
운영자
인공지능 기반의 예
측
To-Be 프로세스
장기간 대용량 운영
데이터를 관리하고, 이를
분석하는 것이 어려움
인공지능 모델의 예측
결과는 부정확하므로
신뢰도가 낮음
분석 비용이 고가이며,
유연성이 부족함
As-Is
운영 비용 절감
빅데이터에서 식별되지 않는, 숨겨진 의미를
도출하고 이해
데이터에서 인사이트를 도출하고, 검증하는
과정
머신러닝을 사용해서 시스템 증설, 비용을 예
측
데이터 탐색
분석과 예측
3
12
다양한 신호를 탐색, 분석, 예측하기 위한 기능을 제공합니다. 특정 플랫폼에 종속적이지 않으
며, 다양한 대시보드와 리포트를 개발할 수 있습니다.
Notas do Editor
데이터 연관성을 이해하고, 다양한 관점으로 데이터를 분석
정확하게 이상치를 식별하고, 문제의 근본 원인을 이해
기술적으로 솔루션에 종속적이고, 확장 시 많은 비용을 지출
무분별하고 정제되지 않은 알람은 운영자의 혼란스럽게하고 피로도를 상승
예를 들면, 사용자는 서비스 지연이지만 백엔드에서는 Concurrency, Lock, OOM, Execution Pool 등이 발생 가능