7. Proaktivní monitoring ITOps
Jak efektivně řídit servisní organizace…
Ladislav Straka | Managing Consultant @ Service & Support spol. s r. o.
Kamil Doležel | CTO @ Service & Support spol. s r. o.
15. 4. 2024 | Splunk User Group Sesson #2, Cafe Louvre, Praha
8. ▶ Komplexní integrační projekty
• Utility, Doprava, Government, Finance
▶ Hlavní oblasti
• Bezpečnostní řešení (ZoKB, ISO 27000)
• ITOps optimalizace (ITIL®, ISO 20000)
▶ 18+ let na trhu
▶ Ocenění za systémovou integraci
Kdo jsme…
a co děláme
9. ▶ Service & Support Elite Partner pro CZ/SK
• První Elite Partner v CZK/SK
• Silný technický tým
• Integrační projekty (SecOps, Industry 4.0)
• Business Analytics (KPI)
S&S a Splunk
Kompetence technického týmu
10. ▶ Splunk conf 2017, Washington DC (25.-28.9.)
• 7 000+ účastníků, 70+ partnerů (2 EE)
• Easy Ride: How to Collect Tolls While Keeping Drivers Happy
• https://conf.splunk.com/files/2017/slides/easy-ride-how-to-collect-tolls-while-keeping-drivers-
happy.pdf
S&S a Splunk
Ocenění Splunk
16. Snížení počtu
monitorovacích
nástrojů & datových
sil
Zvýšení flexibility
firmy v nestálém
prostředí IT
Připojení IT k
důležitým
podnikovým službám
a aplikacím
Optimalizace
nákladů
Provozní
efektivita
Dopad na
podnikání
Od nákladového
střediska ke
strategickému
partnerovi
Inovace
Přínosy
Business
17. 64%
Optimalizace
nákladů
Zlepšená dostupnost
díky prevenci
nákladných incidentů
95%
Provozní efektivita
IT specialisté se
věnují jen důležitým
událostem
90%
Dopad na podnikání
Zvýšení reputace
firmy díky 360°
viditelnosti služeb
1,100+
Inovace
Nejbližší cíl: 3 země
▼ Neplánované výpadky
Prodejny po celé
Evropě
▼ Redukce Alertů ▼ MTTR
Operations & Service týmy
Přínosy
20. ▶ CZ
• 412 prodejen
• 12K+ monitorovaných zařízení
• 5 oblastí
POS, WAN, LAN, Server + SQL, UPS
• 36K+ monitorovaných KPI
• Perioda 1/5/15 minut
▶ ITA
• 420 prodejen
• 12K+ monitorovaných zařízení
• 6 oblastí
pokladny, váhy, WAN, LAN, Server + SQL, UPS
• 34K+ monitorovaných KPI
• Perioda 1/5/15 minut
Obchodní síť - CZ/ITA
Splunk ITOps monitoring
24. ▶ Přehled
• Jedna přehledná obrazovka s aktuálním stavem ICT na prodejnách
• Společný pohled na aktuální stav
• Sledování práce servisních organizací
▶ Zrychlení řešení událostí, incidentů a problémů
• Významné snížení časů MTTI a MTTR
• Všechny důležité informace a logy na jednom místě
► Rychlé odhalení kořenové příčiny - na tři kliknutí
► Přímý přístup na konkrétní zařízení z jednotného prostředí
► Odpadla nutnost předávat si informace a soubory mezi týmy
Monitoring obchodní sítě
Přínosy
25. ▶ Reálná proaktivita
• Odhalení problému dříve, než ho zaznamená personál na prodejnách
▶ Business služby
• Sledují se…
► synchronizace cen na pokladnách
► provedení účetních uzávěrek
► využití WiFi připojení zákazníky
Monitoring obchodní sítě
Přínosy
27. ▶ Přístup ke Splunk vizualizacím
• na fyzických objektech v real-time
▶ Dokumentace „vždy po ruce“
• Link na relevantní dokumentaci
▶ Dodržení stanoveného workflow
▶ Splunk AR
• Součást Enterprise/Cloud licence
Splunk AR
Virtuální IT personál
28. Zkrácení času řešení
Snažší cesta ke splnění úkolu
Snížení nákladů
Není nutné posílat specialisty
on-site
Bezpečnost
Snížení rizika bezdotykovým
přístupem
Splunk AR
Přínosy
32. 2
• SIEM key features
• Korelace přicházejících událostí se systémy a aplikacemi ve firmě
• Poskytuje kontext a provázání logů s assety a uživatelskými účty
• Assety a jejich vztahy se v čase mění, ES AIM uchovává pouze
poslední známý stav (dostačující pro statické assety a identity)
Splunk ES Asset and Identity Management
Framework (AIM)
33. 3
• ES AIM
• potřebuje kvalitní zdroj dat
• musí být vždy aktuální
• Obohacování událostí postrádá časový rozměr
• Potřebujeme možnost jít zpět v čase a pracovat s libovolným předchozím stavem věcí
• Snapshot ze všech dostupných dat o síťovém provozu
• Musíme zajistit potřebný pre-processing dat z jednotlivých zdrojů
• Chceme využít výstup jako vstupní zdroj dat pro ES AIM
Motivace
36. 6
• Vybudovat a udržovat aktuální referenční seznam zařízení na základě real-time dat z
provozu v síťové infrastruktuře. Seznam slouží jakožto:
• Vstup pro založení nového záznamu v CMDB
• Indikace pro případné vyřazení záznamu z CMDB
• Kontrola aktuálnosti dat v CMDB
• Zdroj dat pro ES AIM
• Uchování time-snapshots infrastruktury pro investigaci incidentů
• Co není účelem: Generovat data / aktualizovat přímo záznamy v CMDB
Horizon Goals
37. 7
• Nástroj je pasivní, neprovádí žádný scan sítě
• Dynamický seznam se vytváří ze všech dostupných a relevantních logů
• V procesu vytváření záznamů jsou zpracovány a kombinovány různé zdroje dat.
Neexistuje jeden vstup (log stream) poskytující “zdroj pravdy” o tom, co se skutečně v
síťové infrastruktuře firmy odehrává.
• Ve fázi analýzy implementace nástroje v konkrétním prostředí jsou identifikovány vhodné
zdroje dat
• Nevýhoda:
• Pasivní mód znamená, že pokud zařízení nekomunikuje (nebo někdo s ním), pak o
něm nevíme
• Je však možné využít jakožto vstup i data z jakéhokoliv nástroje pro
network scanning, který již firma využívá, pokud je dostupné jeho API případně je
možnost exportovat jeho výsledky
Horizon - omezení
38. 8
• DHCP
• VPN
• Microsoft Active Directory (LDAP)
• Firewall
• CMDB (např: CIDR rozsahy, statická zařízení, která nedokážeme detekovat, … )
• Microsoft Sysmon
• Endpoint Security
Horizon – možné zdroje dat
39. 9
• Data ze všech vstupů jsou vyčištěna, normalizována a zkombinována do
výsledného obrazu stavu infrastruktury v daném čase
• Historie je také zaznamenána a je tak možné se kdykoliv podívat na stav
(snapshot) v minulosti
• Důležité při analýze a investigaci bezpečnostního incidentu
• Pomáhá při troubleshootingu
• Vztah Asset – User (Identity) je identifikován a také zaznamenán kdykoliv je to
možné
Horizon
40. 10
• DHCP request obsahuje:
• MAC addresa
• Class
• Relay agent
• DHCP response poskytuje:
• MAC addresa
• IP addresa
Zdroj dat - DHCP
41. 11
• VPN
• Remote IP address
• Local IP address
• User
• Hostname
Zdroj dat - VPN
42. 12
• Microsoft Active Directory - Authentication Events
• Hostname
• IP address
• User
• Microsoft Active Directory – export Computer objects
• Hostname
• Last IP address
• OS version
Zdroj dat - MS Active Directory
43. 13
• Sysmon Event ID 3 – TCP/UDP connections
• Source IP address
• Destination IP address
• Hostname
• User
Zdroj dat - MS Sysmon
44. 14
• Každý log stream má svůj vlastní naplánovaný
search job
• Různé časové rozsahy
• Specifická logika zpracování událostí a
detekce změn
• Různé datové zdroje s odlišnými atributy jsou
normalizovány na definovanou množinu polí
potřebných pro asset inventory
• Aktuální stav je zapsán do KV lookupu
• Historický stav je doplněn do summary indexu
Data collector
45. 15
Merge proces
• Identifikované změny v každém zdroji dat jsou
relevantní pouze po určitou dobu
• Každý z dílčích seznamů má svůj Time-to-live
• Ve výsledném seznamu se bere v úvahu
• priorita zdroje
• poslední aktuální záznam ze všech zdrojů
DHCP
VPN
EPS
LDAP Sysmon
CMDB …
Asset model
50. 20
• Obohacování eventů o informace z AIM
• src, dest, dvc pole jsou “jednorozměrná”, bez časové dimenze
• čas spuštění SPL dotazu
• počáteční/koncový čas time range
• timestamp eventu
• obohacování během indexing fáze
• využít multivalue fields
Open points