Datenschutz

Logfiles in der Praxis

24.05.2008

Jedes Webhosting Paket bietet heute Logfiles an – aber viele Webmaster und vor allem Nutzer sind sich nicht im Klaren, was diese “Logfiles” an Daten eigentlich beherbergen und was man damit tun kann. Ich habe hier zwei ältere Artikel von mir herausgesucht und eingestellt, mit denen ich (vor einigen Jahren) Webmastern beschrieben habe, die man Logfiles analysiert. An dieser Stelle sollen diese Inhalte dazu dienen, jedem Klar zu machen, was dies für ein Werkzeug ist, wie man es nutzt und wie man es nutzen kann.

Es folgt ein kurzer Aufriss über die wichtigsten Daten eines Logfiles, eine typische Logdatei von ihrem Server wird so aussehen:

212.66.128.xyz – – [01/Nov/1999:10:01:22 +0100] “GET /index.htm HTTP/1.0” 200 2342 “-” “Mozilla/4.6[de]”

Jeder einzelne Zugriff auf eine Datei auf Ihrem Server erhält dabei eine eigene Zeile, die diesem Aufbau entspricht. Als erstes sieht man immer die IP des Besuchers (ich habe hier die letzten Ziffern entfernt). Dahinter kommt das Datum und die Uhrzeit des Zugriffs, die +0100 steht für die Mitteileuropäische Zeitzone.

Hinter den allgemeinen Daten kommen nun die Zugriffsdaten: Als erstes was gemacht wurde. GET bedeutet, die Datei wurde abgerufen (anders als zB POST). Hinter GET steht die Abgerufene Datei, hier die index.htm im Root. Als letztes wird das Zugriffsprotokoll genannt: HTTP 1.0.
Das nächste wichtige ist die nun folgende, 3stellige Zahl (hier 200). Dies ist der übertragungscode. 200 Bedeutet OK, wichtig ist noch 404, das bedeutet “Aufgerufene Seite nicht vorhanden”. Hinter dem Ãœbertragungscode folgt eine Zahl, die genau angibt, wieviele Bytes beim Zugriff auf diese Datei übertragen wurden.

Von grosser Bedeutung ist der folgende Wert (hier nur ein “-“): Hier steht, wo der Besucher hergekommen ist; der sogenannte Referrer. Dort steht die URl einer Seite, so zB einer Suchmaschine. In dieser URl steht bei Suchmaschinen dann meistens auch das bzw. die Suchwörter nach denen gesucht wurde.
Das letzte in dieser Zeile ist der User Agent, hier stehen meistens Informationen zum Browser und zum Land, ist aber nicht zwingend. Suchmaschinen Roboter übermitteln hier Ihre Botbezeichnung.

Mit diesen schnell vermittelten Grundkenntnissen kann man nun seine Logfiles durchsehen und die Besucher analysieren. Bei grossen Logfiles sind Programme zu empfehlen, die die wichtigsten Daten aufschlüsseln, dazu siehe den Link unten. Was der Anfänger nun als nette spielerei abtun mag, ist für die weitere Entwicklung der Seite von Entscheidender Bedeutung. Einige Erklärungen, wozu das ganze gut ist:

Suchmaschinen analysieren
Ungemein wichtig: Von welcher Suchmaschine kommen die meisten Besucher und wonach wurde gesucht? In diesem Zusammenhang muss man untersuchen, ob die Suchwörter überhaupt in verbindung mit der eigenen Seite stehen. Wenn z.B. die meisten Besucher nach “Fahrrad” suchen und bei Ihnen im Online Shop für Porzellan landen, wird Ihnen das wenig bringen. Sie müssten dann überlegen, ob die Seite eventuell für andere Suchwörter umstrukturiert werden muss oder ob Sie sogar professionelle Hilfe in Form eines Promoting Dienstleisters in Anspruch nehmen. Letztere Alternative ist aber zumeist kostspielig und empfiehlt sich nur, wenn mit der Internetseite ein entsprechendes Interesse verbunden ist. Insbesondere private (Hobby) Projekte lohnen sich hierzu nicht.

Die Dateigrösse
Sie sehen in jeder Zeile, wie gross die übertragene Datei war. Sollten Sie Probleme mit begrenztem Trafficvolumen haben und die Ursachen suchen, finden Sie hier einen Anhaltspunkt. Auch wenn die Seite zu lange braucht, um vollständig geladen zu werden, sollten Sie mal bei den jeweiligen Dateien auf die übertragenen Bytes schielen und vielleicht ein wenig verkleinern.

Die Besuchszeiten
Anhand der Besuchszeiten können Sie ermitteln, zu welchen Zeiten die meisten Besucher kommen. Dies kann z.B. nützlich sein, wenn Sie Ihre Seite einmal komplett neu aufspielen möchten und dies zu einem Zeittpunkt mit möglichst wenigen Besuchern machen möchten. Auch können Sie auf ihre Besucher zurückschließen, so dürfte bei einem Hauptbesucherstrom zwischn 7.00h und 15.00h es sich grossteils um Büroarbeiter handeln, die am Arbeitsplatz im Internet sind. Durch solche Rückschlüsse können Sie auf die Bedürfnisse Ihrer Besucher eingehen und entsprechende Angebote schalten.

Datei nicht gefunden
Es ist für einen Besucher frustierend, wenn er auf eine Seite zugreift, die es gar nicht gibt. Sie sollten deswegen alle 404 Codes aus Ihrem Logfile raussuchen und diese Beheben. Anhand des Referrers erkennen Sie ja auch, woher der Zugriff auf die fehlende Datei kam. Wenn jemand einen festen Link dorthin geschaltet hat, sollten Sie vielleicht kurz in einer Email darauf hinweisen und höflich bitten, den Link zu einer anderen, vorhandenen Datei zu ändern. Wenn der Zugriff über eine Suchmaschine kam, ist es zu empfehlen, eine Seite mit dem gleichen Namen einzurichten, die dann aber sofort auf eine andere Seite weiterleitet. (Anleitungen dazu gibt es in diesem Portal).

Wen haben wir denn da?
Der User Agent ist auch nicht uninformativ. Wenn wir z.B. viele ausländische Besucher haben, empfiehlt es sich, wenigstens einen Englischen Teil der Homepage hinzuzufügen. Anders herum: Wer seine Homepage in 7 Sprachen anbietet und ständig aktualisiert; aber dafür nur wenig fremdsprachige Besucher hat, sollte vielleicht an eine Verkleinerung denken und die Arbeit woanders in die Seite investieren.

Ich habe nun nur kurz die Möglichkeiten angerissen. Es gibt noch mehr, etwa kann man untersuchen, wie lange jeder Besucher im Schnittt auf der Webseite bleibt oder welchen Weg er auf der Homepage geht. Wen dass interessiert, der sollte sich allerdings ein entsprechendes SoftwareProdukt zur Hilfe kaufen!

Die Software: Logfile-Analyzer

Es kann zuweilen sehr praktisch sein, die Besucher seiner Homepage etwas näher zu betrachten. Durch eine gute Analyse der eigenen Statistiken entdeckt man häufig Fehler in der eigenen Seite oder Möglichkeiten, um die Seite auszubauen und mehr Traffic zu gewinnen. Man benötigt hierzu nur selten Skripte oder (kommerzielle) Drittanbieter: Die Statistiken der eigenen Homepage werden bei den meisten Providern in Form von Logfiles festgehalten. Was genau beinhalten nun diese Logfiles und wie analysiert man diese?

Die Logfiles selber muss man sich über seinen Account bei seinem Provider besorgen. Dies ist immer wieder unterschiedlich und kann hier nicht beschrieben werden. Wer sich einmal eine Datei kopiert hat (zumeist gepackt) und entpackt hat, stellt fest, dass es sich um eine simple Textdatei handelt. Ein Blick hinein zeigt die Vorgänge auf der eigenen Homepage (bzw. Server) und bietet einige Hilfen.Bei jeden Zugriff wird eine Zeile in das Logfile geschrieben, zu Anfang immer Uhrzeit und Datum. Wer sich dafür interessiert kann nun nahcvollziehen, zu welcher Zeit die meisten Besucher kommen und wann die wenigsten. Das mag interessant, aber weniger nützlich sein (allenfalls bei der Bestimmung der Zielgruppe : Evt. viele Bürosurfer).

Weiterhin sieht man, auf was zugegriffen wurde, woher der Zugriff kam, ob eventuell ein Fehler vorlag (Error Code, zb 404) und wieviel Daten übertragen wurden. Dies alles ist sehr nützlich. So haben manche Seiten ein beschränktes traffic.  Wer vor dem Problem steht, dass er zuviele Daten überträgt, kann herausuchen, welche Zugriff den höchsten Traffic verursachen und (etwa durch eine Auslagerung) Gegenmaßnahmen ergreifen.
Praktisch auch der Referrer : Man sieht woher die Besucher kommen oder welcher Link auf der eigenen Seite für einen bestimmten Zugriff verantwortlich ist. Ãœbrigens übertragen die meisten Suchmaschinen im Referrer auch die Suchwörter, nach denen gesucht wurde, man sieht also, welche Suchwörter einem im Moment Traffic bringen.
Wer die Datei nach dem ErrorCode 404 durchsucht, sieht, ob eventuell Seiten nicht gefunden wurden. Wenn ja, sieht man anhand des davorstehenden Referrers, woher der Zugriff kam und kann das Problem analysieren.

Jetzt kann es für kleinere Seiten problemlos möglich sein, die Logfiles von Hand durchzugehen – bei grösseren (wie dieser) ist das dann doch etwas viel. Aus diesem Grund gibt es diverse Programme, die einem die Hand-Arbeit abnehmen. Hier eine kleine Auswahl (allerdings ohne Preise) :

  • Der Webalizer
    Der Webalizer it ein Freeware-Tool und kostenlos verfügbar. Er bietet die wichtigsten Informationen, ist aber ein DOS (bzw. Shell) Programm. Wer also eine Benutzeroberfläche in der “Ein-Klick” MEnatlität sucht, ist hier falsch aufgehoben. Das Tool selber ist jedoch gerade für kleinere Projekte perfekt, da es kostenlos ist und die wichtigsten Infos bereit hält. Die Ergebnisse werden als HTML Datei erzeugt und sind mit einem Browser einzusehen.
    Homepage mit Download : www.webalizer.org
  • Faststats
    Faststats ist ein kommerzielles Tool von Mach5. Es verarbeitet Logfiles sehr schnell (daher auch der Name) und bietet wichtige Infos im Überblick. Anders als der Webalizer ist es kinderleicht zu Konfigurieren und bietet etwas mehr Infos. Die Ergebnisse stehen in einer Benutzeroberfläche zur Verfügung und können in diverse Formate exportiert werden. Für Webmaster von etwas grösseren Projekten, die die Besucher genauer analysieren möchten auf jeden Fall einen Blick wert.
    Homepage mit Trial-Download : http://www.mach5.com
  • Funnel Web
    Kommerzielles Tool, das im Endeffekt wie Webalizer eine HTML Seite mit den Ergebnissen erstellt. Viele Optionen zum Einstellen, mag dem ein oer anderen Windows Benutzer entgegen kommen.
  • Web Success
    Ein kommerzielles und nicht gerade billiges Tool. Dafür aber auch sehr umfangreich und wohl vor allem für grosse Homepagebetreiber gedacht, die insbesondere die Besucher der eigenen Homepage bis ins letzte Nachvollziehen wollen. Die Zahl der Optionen ist sehr umfangreich, schlägt die anderen Produkte um weiten.
Beitrag teilen:

Kontakt

Rechtsanwalt Dr. Sebastian Kraska,
externer Datenschutzbeauftragter

Telefon: 089-1891 7360
E-Mail: email@iitr.de
www.iitr.de

2 Kommentare zu diesem Beitrag:

marco

In dem Artikel ist viel Redundanz:

Datei nicht gefunden

Es ist für einen Besucher frustierend, wenn er auf eine Seite zugreift, die es gar nicht gibt. Sie sollten deswegen alle 404 Codes aus Ihrem Logfile raussuchen und diese Beheben.

Die Software: Logfile-Analyzer

Weiterhin sieht man, auf was zugegriffen wurde, woher der Zugriff kam, ob eventuell ein Fehler vorlag (Error Code, zb 404) und wieviel Daten übertragen wurden.

Knut Heinze

Wo wir schon bei Datenschutz sind? Ist das nicht per se ein Problem - auch mit Webalizer?

Kommentar schreiben:

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

IITR Chatbot IITR Chatbot