Campixx Session 2017: Logfile Analyse mit Splunk
Logfiles verraten eine Menge darüber, wie sich Google auf den eigenen Seiten bewegt. Aber nicht nur das. PageSpeed Monster, Link Juice Probleme und vieles mehr lassen sich durch einen tiefen Blick mit Tools wie Splunk identifizieren.
20. @mindbox_dd@hannes3686
Vorbereitung | Logdatei verkleinern
1. Terminal aufrufen
2. In das Verzeichnis mit den entpackten Logdateien wechseln
3. Mit grep-Befehl relevante Zeilen in eine neue Datei kopieren
Mac
21. @mindbox_dd@hannes3686
Vorbereitung | Terminalbefehle
pwd - Gibt aus, in welchem Ordner man sich befindet
ls - Listet Dateien und Unterordner auf
cd Verzeichnisname - wechselt Unterverzeichnis
cd .. - wechselt ins übergeordnete Verzeichnis
Mac
23. @mindbox_dd@hannes3686
Vorbereitung | Logdatei verkleinern
1. Eingabeaufforderung aufrufen
2. In das Verzeichnis mit den entpackten Logdateien wechseln
3. Mit findstr-Befehl relevante Zeilen in eine neue Datei kopieren
Windows
24. @mindbox_dd@hannes3686
Vorbereitung | Terminalbefehle
pwd - Gibt aus, in welchem Ordner man sich befindet
ls - Listet Dateien und Unterordner auf
cd Verzeichnisname - wechselt Unterverzeichnis
cd .. - wechselt ins übergeordnete Verzeichnis
Windows
30. @mindbox_dd@hannes3686
Splunk | Datenanalyse vorbereiten
Typ der Datenquelle wählen: access_combined
Splunk zerlegt die Zeilen automatisch in ihre Bestandteile und indiziert sie
38. @mindbox_dd@hannes3686
Splunk | Analysen
Die wichtigsten Anweisungen:
• Die häufigsten …
- | top 10 FELDNAME
• Diagramm mit Zeitverlauf
- | timechart count by day
- | timechart count by uri
- | timechart span=1w count by uri
• Tabellarische Statistik
- | stats count by status
• gewöhnliche Diagramme
- | chart count by date_hour
• Pipe „|“ startet einen Befehl
39. @mindbox_dd@hannes3686
Splunk | Analysen
Suche nach IP = 18.452 Ereignisse
Suche nach „googlebot“ = 19.082 Ereignisse
1. Generelles Crawl-Verhalten
host="MBXIT-256-HaRi.local" clientip="66.249.*" | timechart count by day
40. @mindbox_dd@hannes3686
Splunk | Analysen
2. Welche URLs werden am häufigsten aufgesucht?
host="MBXIT-256-HaRi.local" clientip="66.249.*" | top 10 uri
Startseite, Favicon, robots.txt, Hauptkategorien
/ gut rankende Seiten
stehen hier irrelevante URIs? => ggf. Optimierungsbedarf f. interne Verlinkung
43. @mindbox_dd@hannes3686
Splunk | Analysen
4. Wird „Link Juice“ vergeudet? Gibt es Fehlerseiten?
host="MBXIT-256-HaRi.local" clientip="66.249.*" | stats count by status
4** - 5** vermeiden, 302-307 Codes prüfen
Status Codes erklärt unter: https://de.wikipedia.org/wiki/HTTP-Statuscode
44. @mindbox_dd@hannes3686
Splunk | Analysen
5. Welche Seiten sind betroffen?
host="MBXIT-256-HaRi.local" clientip="66.249.*" status=404 OR status=410 OR
status=500 | stats count by uri
host="MBXIT-256-HaRi.local" clientip="66.249.*" status=302 OR status=307 |
stats count by uri
host="MBXIT-256-HaRi.local" clientip="66.249.*" status>301 status<400 | stats
count by status
45. @mindbox_dd@hannes3686
Splunk | Analysen
6. Sind Status-Code Probleme zeitlich bedingt?
host="MBXIT-256-HaRi.local" clientip="66.249.*" status=500 | timechart count by date_hour
host="MBXIT-256-HaRi.local" clientip="66.249.*" status=404 | timechart count by date_hour
46. @mindbox_dd@hannes3686
Splunk | Analysen
7. Sind Status-Code Probleme zeitlich bedingt?
host="MBXIT-256-HaRi.local" clientip="66.249.*" status=404 | timechart limit=4 count by date_hour
47. @mindbox_dd@hannes3686
Splunk | Analysen
8. Auf welche Dateigrößen trifft Google am häufigsten?
host="MBXIT-256-HaRi.local" clientip="66.249.*" | top 30 bytes
Welche Größen treten am häufigsten auf?
5,7kb ist nicht groß - ggf. eine Ressource, die sehr oft
vorkommt und optimiert werden kann
host="MBXIT-256-HaRi.local" clientip="66.249.*" bytes=5729 | stats count by uri
48. @mindbox_dd@hannes3686
Splunk | Analysen
9. Welche Requests produzieren die größte Datenlast?
host="MBXIT-256-HaRi.local" clientip="66.249.*" | stats max(bytes) count by uri
49. @mindbox_dd@hannes3686
Splunk | Analysen
10. Welche HTML-URLs produzieren die größte Datenlast?
host="MBXIT-256-HaRi.local" clientip="66.249.*" uri!="*.pdf" AND uri!="*.jpg"
| stats max(bytes) count by uri
Bis zu 2,8MB für Quellcode!
50. @mindbox_dd@hannes3686
Splunk | Analysen
11. Wie verhält sich Google beim Crawling von Parameter-URLs
host="MBXIT-256-HaRi.local" clientip="66.249*" uri="*?*" | timechart count by status
53. @mindbox_dd@hannes3686
Splunk | Analysen
12. Welche Parameter begegnen Google am häufigsten?
Ich möchte einen regulären Ausdruck selbst schreiben
(?<=[?|&])+(?<parameter>[a-zA-Z0-9]+)
54. @mindbox_dd@hannes3686
Splunk | Analysen
12. Welche Parameter begegnen Google am häufigsten?
299 Zugriffe über utm-Source in 2 Tagen?
host="MBXIT-256-HaRi.local" clientip=„66.249.*" | chart count by param
utm-Parameter in interner Linkstruktur verwendet