O slideshow foi denunciado.
Seu SlideShare está sendo baixado. ×

Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czysch | SEOCampixx 2014

Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio

Confira estes a seguir

1 de 43 Anúncio

Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czysch | SEOCampixx 2014

Was ist der Unterschied zwischen robots.txt und meta robots?
Was ist der Unterschied zwischen Crawling und Indexierung?
Welche Inhalte crawlt Google?
Wie kann das Crawling optimiert werden?

Vortrag von Stephan Czysch zum Thema Logfile-Analysen auf der SEO Campixx 2014.

Was ist der Unterschied zwischen robots.txt und meta robots?
Was ist der Unterschied zwischen Crawling und Indexierung?
Welche Inhalte crawlt Google?
Wie kann das Crawling optimiert werden?

Vortrag von Stephan Czysch zum Thema Logfile-Analysen auf der SEO Campixx 2014.

Anúncio
Anúncio

Mais Conteúdo rRelacionado

Diapositivos para si (20)

Quem viu também gostou (20)

Anúncio

Semelhante a Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czysch | SEOCampixx 2014 (20)

Mais de TA Trust Agents Internet GmbH (9)

Anúncio

Mais recentes (20)

Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czysch | SEOCampixx 2014

  1. 1. Headline Subheadline TA Trust Agents Internet GmbH Neue Schönhauser Straße 19 10178 Berlin Referent: Max Mustermann 14. September 2012 SEO-Beratung aus Berlin TA Trust Agents Internet GmbH Neue Schönhauser Straße 19 10178 Berlin SEO-Beratung aus Berlin Crawling-Analyse Wo ver(sch)wendet Google Crawling-Ressourcen? SEO Campixx 2014, Stephan Czysch
  2. 2. 2 Über mich  Seit 2012 Trust Agents CEO  2011-2012 Head of SEO Wimdu  2009-2011 Rocket Internet  Autor diverser Fachartikel & Google Webmaster Tools E-Book  Stephan Czysch
  3. 3. Agenda  Grundlegendes  Was crawlt Google?  Crawling-Analyse: Schritt für Schritt Anleitung mit Excel 3
  4. 4. GRUNDLEGENDES 4
  5. 5. Allgemeines  Suchmaschinen crawlen Inhalte, die  aufgrund von Verweisen oder Anmeldung bekannt sind  verfügbar und nicht-verfügbar sind  weitergeleitet werden  und nicht vom Crawling ausgeschlossen wurden  Hinweis: Speziell Google „rät“ manchmal URLs und folgt Erwähnungen von URLs bzw. URL-Fragmenten 5
  6. 6. Crawling-Ablauf 6
  7. 7. robots.txt vs. robots Tag  Wichtig: Crawling ≠ Indexierung  Crawling:  Automatische Analyse von URLs  Beeinflusst durch robots.txt  Indexierung:  Sollen Inhalte im Index erscheinen?  Beeinflusst durch robots Tag  Ohne eine Seite zu crawlen, weiß Google nicht, ob eine Seite eventuell nicht indexiert werden soll! 7
  8. 8. robots Tag kann Indexierung beeinflussen  Meta robots  Steht im Quelltext  <meta name="robots" content="noindex" />  <meta name="googlebot" content="noindex" />  X-robots  Wird über den HTTP Header übertragen  HTTP/1.1 200 OK Date: Tue, 25 May 2013 21:11:43 GMT (…) X-Robots-Tag: noindex (…)  Speziell für nicht HTML-Dokumente gedacht 8
  9. 9. Tipp: Seerobots Browserplugin  robots-Angabe direkt im Browser anzeigen lassen  Download:  Firefox |Chrome  Weitere sinnvolle SEO-Plugins: trustagents.de/seo- browserplugins 9
  10. 10. robots.txt beeinflusst das Crawling  Blockierung findet über die Angabe des User Agent statt  Wie bei robots Angaben: Alles was nicht „negiert“ ist, ist automatisch erlaubt 10
  11. 11. User Agent?  Kennung eines Clients, der an den Server übertragen wird  Problem: User Agent kann modifiziert werden 11
  12. 12. User Agent  Wie schön wäre es doch, sich als Googlebot auszuweisen 12
  13. 13. Übersicht robots.txt, Canonical & robots Tag robots.txt Canonical robots Tag URL darf gecrawlt werden Nein Ja Ja Anwendungsfall Seite soll nicht gecrawlt werden Seiteninhalt entspricht zu großem Teil einer anderen Seite Eine Seite soll gecrawlt werden, aber nicht im Index erscheinen Seite erscheint im Google-Index? Ohne Snippet (siehe Beispiel) Unter Umständen Nein 13
  14. 14. Tipp: roboxt! Plugin  Zeigt an, ob die aktuell geöffnete URL durch die robots.txt blockiert wird  Download: Firefox 14
  15. 15. robots.txt testen  WMT: Crawling => blockierte URLs 15
  16. 16. Das würden wir gerne vermeiden  URLs gone wild 16
  17. 17. Und das natürlich auch 17 Grund: Neue, nicht indexierte URLs entstehen. Vermutung: Keine neuen Inhalte sondern alte unter neuen URLs?
  18. 18. Und eventuell auch das 18 Sowohl der Anstieg als auch Abfall kann ein Problem sein 
  19. 19. WAS CRAWLT GOOGLE? 19
  20. 20. Wir erinnern uns  Gecrawlt wird,  Was nicht von robots.txt blockiert ist  und bekannt ist  meta robots hat erstmal wenig mit Crawling zu tun! 20
  21. 21. Infos über Google Webmaster Tools 21  Crawling-Fehler  URL-Parameter  Interne Links  Suchanfragen  Content-Keywords  HTML-Verbesserungen  Strukturierte Daten  Google Webmaster Tools Nachrichten  Problem: Wir wissen, dass eine URL gecrawlt wurde, aber nicht (immer) wann und wie häufig
  22. 22. Beispiel: URL-Parameter 22  Google könnte uns ohne Crawling nicht sagen, dass XYZ vorliegt
  23. 23. Die beste Quelle: Logfiles  Apache und Co. (können) Zugriffe abspeichern  Die Datei enthält Zugriffe von Bots und Nutzern  Pro Tag kann es mehrere Dateien geben 23
  24. 24. Logfile-Beispiel  Bei großen Seiten fallen pro Tag mehrere Gigabyte an Daten an  Inhalt der Beispieldatei: 24 Datum Statuscode Zeit Übertragene Dateigröße Anfrage User Agent Referrer …
  25. 25. Problem: Daten aufbereiten  Wie bekommt man die Daten in eine analysierbare Form? 25
  26. 26. Ja, aber ich nutze doch Onpage-Tools  Onpage-Tools (z.B. Screaming-Frog) analysieren nur aktuell INTERN verlinkte URLs  Keine von externen Seiten verlinkte URLs  Keine alten URL-Strukturen  Kein „URL-guessing“  Onpage-Tools bilden nur ihr eigenes Crawling ab und analysieren Seiten i.d.R. nicht mehrfach  Google hingegen vergisst nichts! 26
  27. 27. SCHRITT FÜR SCHRITT ANLEITUNG MIT EXCEL 27
  28. 28. Was brauchen wir? 28  Logfile  Microsoft Excel  Optional: SEO Tools für Excel  Bisschen Zeit  Hinweis: Bei großen Logfiles ist Excel nicht zu gebrauchen  maximal 1.048.576 Zeilen werden von Excel unterstützt
  29. 29. Schritt 1: Daten in Excel importieren  Kleine Logfiles können mit Excel geöffnet werden  Daten => Aus Text => Alle Dateien 29
  30. 30. Schritt 1: Daten in Excel importieren  Kodierung auf UTF-8 stellen  Trennzeichen: Leerzeichen  Fertigstellen 30
  31. 31. Schritt 1: Ergebnis  Im Erfolgsfall sieht es ungefähr so aus  Zu sehen:  Wichtig: Eure eigenen Logfiles können ein anderen Aufbau haben! 31 IP Größe Datum Referrer Uhrzeit User Agent Anfrage Statuscode
  32. 32. Schritt 2: Spalten anpassen  Spalten ohne Werte fliegen raus, der Referrer interessiert uns bei der Crawling-Analyse auch nicht  Wichtig: Googlebot sendet keinen Referrer! 32
  33. 33. Schritt 3: „Falsche“ Googlebots rauswerfen  Über die IPs finden wir „falsche“ Googlebots von Scrapern & Co.  66.249.*.* ist in aller Regel wirklich der Googlebot 33
  34. 34. Schritt 4: Daten aufbereiten  HTTP 1.1 und ähnliche Infos aus URL Anfrage löschen  URLs einfügen  =VERKETTEN(„http://www.domain.de“&C2)  Auf Wunsch: Link mit =HYPERLINK(ZELLE) einfügen  Ab hier liegt es an euch, die Daten weiter aufzubereiten 34
  35. 35. Schritt 4: Daten aufbereiten  Was ich immer mache:  Ordner rausziehen (SEO Tools for Excel)  =URLPROPERTY(Zelle,“path“)  301 Redirect-Ziele hinzuziehen (SEO Tools for Excel)  =HTTPSTATUS(Zelle)  URLs mit Query-Parameter markieren  …. 35
  36. 36. Beispielfragen  Wie häufig wird eine URL in einem beliebigen Zeitraum gecrawlt?  Welche Ordner werden besonders häufig gecrawlt?  Welche URLs werden aufgerufen?  Wie viel Zeit vergeht zwischen einem Crawl einer Seite?  Welche URLs wurden nicht gecrawlt? 36
  37. 37. Beispielergebnis der Analyse  Setup des Kunden  URLs mit Parameter (via Filter) sind nicht SEO relevant  Canonical auf URL ohne Parameter  Mehrfachfilterung nach einer Facette möglich  Hier sollte der Bot eigentlich nicht so häufig hinkommen, da vorher der Canonical greifen sollte 37
  38. 38. Crawling-Auswertung 38 98% 98% 92% 89% 8% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Einzigartige URLs URLs mit 1 Crawl mit Parameter mit 2 Parametern Relevante URLs
  39. 39. Abgeleitete Maßnahme  Crawling-Restriktionen über robots.txt verschärft  Keine Ranking-Verschlechterung 39
  40. 40. Andere Analyse  Für mehr als 50% der täglichen Crawls war eine einzelne Ressource verantwortlich!  Problem: JavaScript-Datei mit Zeitstempel  meinjavascript.js?timestap=1328215921 40
  41. 41. Bonus  Für die Crawling-Analyse interessieren uns bestimmt nur User Agents: Warum also alles importieren?  Abhilfe: Mit GREP (Linux) oder FINDSTR (Windows) könnt ihr die Datei vorab durchsuchen und die für euch relevanten Zugriffe in eine eigene Datei schreiben 41
  42. 42. Immer dran denken 42 Indexierungsmanagement ist wichtig, kümmert euch aber erstmal um ein effizientes Crawling!
  43. 43. Fragen im Nachgang? 43 Stephan Czysch e-mail: sc@trustagents.de xing: Stephan_Czysch G+: https://plus.google.com/+StephanCzysch web: www.trustagents.de blog: www.trustagents.de/blog

×