imported>Reeetac: /* growthexperiments-addlink-summary-summary:1|0|1 */

2025-05-13T01:26:17Z

growthexperiments-addlink-summary-summary:1|0|1

Neue Seite

Bei der '''Logdateianalyse''' wird die [[Logdatei]] eines Computersystems eines gewissen Zeitraumes nach bestimmten Kriterien untersucht. Bei aktuellen Computersystemen werden die unterschiedlichsten Systeme mitprotokolliert. Beispielsweise finden sich bei jedem [[Webserver]], bei jeder [[Datenbank]] und jeder [[Firewall]] Logdateien.
Je nach Art, Inhalt und Umfang der Aufzeichnung der Logdatei können daraus verschiedene Schlüsse gezogen werden.

== Auswertung von Webserver-Logdateien ==
Die interpretierten Statistiken ermöglichen es, den Aufbau und die Struktur der Internetseite zu optimieren. Sie sind Grundlage für [[Benutzerfreundlichkeit]]<nowiki />sanalysen oder liefern Aussagen über den Erfolg einer [[Marketing]]aktion. Mit einer Analyse der Logdateien kann man ansatzweise [[Webcontrolling]] betreiben.

=== Einige mögliche Fragestellungen ===
* Wie lauten [[IP-Adresse]] und [[Hostname]] des Nutzers?
* Welchen [[Webbrowser|Browser]] hat er genutzt?
* Auf welcher Seite stand der [[Hyperlink|Link]], mit dem der Nutzer auf die Seite gekommen ist?
* Welche [[Suchmaschine]] und welche Suchwörter hat er genutzt?
* Wie lange blieb er auf der [[Website]]?
* Wie viele Seiten ruft er dabei auf?
* Auf welcher Seite hat er die Website verlassen?
* Welche [[Plug-in|Ergänzungsmodule]] hat er installiert?
* Welches [[Betriebssystem]] nutzt er?
* Woher kommt der Nutzer?
* Handelt es sich um echte Nutzer oder sogenannte „Bots“?
* Erkennung von Klickbetrug im Rahmen von [[Suchmaschinenmarketing|Suchmaschinenwerbung]].<ref>{{Internetquelle |autor=Rainer Olbrich, Carsten D. Schultz |url=https://www.fernuni-hagen.de/marketing/docs/forschungsberichte/fb16_web.pdf |titel=Suchmaschinenmarketing und Klickbetrug |werk=fernuni-hagen.de |hrsg=Lehrstuhl für BWL / Fernuni Hagen |datum=2008 |sprache=de |abruf=2021-11-05}}</ref>

Diese Fragen lassen sich vor allem durch die Auswertung der sogenannten [[Kommunikationsranddaten]] beantworten.

=== Probleme bei der Analyse ===
Das Hauptproblem der Logdateianalyse bei Webserver-Logdateien ist die Tatsache, dass [[Hypertext Transfer Protocol|HTTP]] ein [[Zustandslosigkeit|zustandsloses]] Protokoll ist. Das heißt, jede Anfrage eines [[Client]]s nach einer Webseite (oder jeder einzelnen darin vorkommenden Grafik usw.) ist für den Webserver eine eigenständige Aktion. Klickt sich der Benutzer durch eine Website, hat der Webserver keinerlei Kenntnis, dass der Benutzer gerade schon eine Seite abgerufen hat.

Um trotzdem ein [[zustandsbehaftet]]es HTTP zu ermöglichen, wird bei dynamisch erzeugten Webseiten gelegentlich beim ersten Aufruf des Benutzers eine so genannte [[Sitzung (Informatik)|Session]]-ID vergeben, die der Client dann bei den folgenden Anfragen immer mitsendet. Dies kann über einen [[HTTP Cookie|Cookie]] oder einen an jeden [[Uniform Resource Identifier|URI]] zusätzlich angehängten Parameter erfolgen, wobei ein Cookie jedoch nicht in der Logdatei sichtbar ist und eine gesonderte Programmierung für die Logdateianalyse benötigt. Falls ein Cookie gesetzt werden kann (das ist vom Client abhängig), ist auch eine spätere Wiedererkennung möglich, sofern der Cookie in der Zwischenzeit nicht verändert bzw. gelöscht wurde. Ansonsten können nur rein statistische Aussagen über die (wahrscheinlichen) Wiederkehrer einer Seite getroffen werden. Dies ist dann z. B. durch Kombinationen von gleicher IP-Adresse, Bildschirmauflösung, übereinstimmenden Plug-ins usw. annähernd möglich, genau ist diese Methode aber nicht. Allerdings gibt es Untersuchungen zu Techniken, wie man einzelne Rechner anhand ihrer individuellen Gangungenauigkeit der Systemuhr wiedererkennen kann.

Eine andere im HTTP bestehende Möglichkeit, einen Benutzer zu identifizieren, ist die Verwendung der IP-Adresse. Sie kann jedoch für viele unterschiedliche Benutzer dieselbe sein, wenn diese einen [[Proxyserver]], [[Network Address Translation]] oder Ähnliches verwenden. Sie sind daher nur mit größter Vorsicht zu verwenden, da eine IP-Adresse nicht mit einem Benutzer gleichzusetzen ist.

Oftmals hat der Betreiber einer Webseite jedoch keinen Zugriff auf die Logdatei des Webservers, sodass häufig versucht wird, mittels [[Zählpixel]]n dennoch eine statistische Auswertung zu ermöglichen. Hierzu werden kleine, unsichtbare (1×1 Pixel, transparent) Bilder in die Webseite eingebunden, die auf einem Webserver abgelegt werden, dessen Logdatei man auswerten kann.

Erweiterte Informationen, wie beispielsweise die [[Bildschirmauflösung]] oder eine Liste von installierten [[Browser-Plug-in]]s, werden auch gerne gewünscht, sind jedoch nicht in einer Logdatei enthalten. Diese Informationen werden dann üblicherweise mittels einer Client-seitigen Skriptsprache ermittelt und ebenfalls mittels Zählpixel separat geloggt.

== Korrelation von Logdateien ==
Neben der Auswertung einzelner Dateien existiert quasi als Königsdisziplin die [[Korrelation]] unterschiedlicher Logdateien, insbesondere zur [[Fehler#Fehleranalyse und Fehlerbereinigung|Fehleranalyse]]. Dabei ist es wichtig, dass die beteiligten Systeme alle Logeinträge mit einem Zeitstempel versehen und darüber hinaus die Uhren dieser Systeme nahezu synchron gehen. Hier empfiehlt sich der Einsatz eines Netzwerkzeitprotokolls wie [[Network Time Protocol|NTP]].

Beispiel für eine Korrelation von Logdateien und -einträgen wäre die Verbindung von Firewall-Logdatei und [[Router]]-Logdateien sowie Accountingdaten auf einem von einem [[Cracker (Computer)|Cracker]] kompromittierten System.

Mittlerweile existiert neben der reinen Log-Analyse auch ein neuer Softwarezweig des „Security information and event management“, kurz SIEM.
Diese Systeme gehen bei der Loganalyse meist einen anderen Weg. Unterschiede zwischen SIEM und der reinen Loganalyse:

SIEM:
a) Die Logs werden „normalisiert“, - in einzelne Informations-Bestandteile zerlegt und dann in einer Datenbank gespeichert. SIEM-Systeme kennen genau die Syntax einzelner Log-Generatoren bzw. der unterschiedlichen Gerätefamilien und können die Alarme gegeneinander korrelieren und deduplizieren.
Somit werden aus den Rohdaten schon Informationen transformiert
b) Die Logs werden zusammen mit weiteren Daten zeitlich oder räumlich zusammengefasst. Hierzu können weitere Log-Datenquellen als auch andere Systeme aus den Bereichen FCAPS (meist Fault-Management), WMI-Events, SNMP-Traps, Informationen aus dem Active Directory und Netflow/SFLow-Daten zusammengefasst und korreliert werden.
c) Im SIEM-System können dank der Korrelation aller Datenquellen dann Baselines für den Normalbetrieb ermittelt und bei Abweichungen sehr früh dann Alarme generiert werden.

Bei der klassischen Loganalyse sitzt der Fachmann der die Logs interpretiert vor dem „PC“, - beim SIEM sollte der Hersteller entsprechende Funktionen und Know-how in der Software mitliefern.

== Zulässigkeit der Analyse in Deutschland ==
{{Hauptartikel|Webcontrolling#Gesetzliche Zulässigkeit in Deutschland|titel1=Webcontrolling}}

Nach Auffassung der Aufsichtsbehörden dürften [[personenbezogene Daten]] eines Nutzers ohne [[Einwilligung (Datenschutzrecht)|Einwilligung]] nur erhoben und verwendet werden, soweit dies erforderlich ist, um die Inanspruchnahme von Telemedien zu ermöglichen und abzurechnen. Die Analyse des Nutzungsverhaltens unter Verwendung vollständiger IP-Adressen (einschließlich einer Geolokalisierung) sei aufgrund der Personenbeziehbarkeit dieser Daten nur mit bewusster, eindeutiger Einwilligung zulässig.<ref>{{Webarchiv | url= http://www.datenschutz-mv.de/dschutz/beschlue/Analyse.pdf | wayback= 20120523032445 | text=''Datenschutzkonforme Ausgestaltung von Analyseverfahren zur Reichweitenmessung bei Internet-Angeboten.''}} 26./27. November 2009 siehe dazu [https://www.daten-speicherung.de/index.php/datenschutzbeauftragte-protokollierung-von-ip-adressen-ist-unzulaessig/ ''Datenschutzbeauftragte: Protokollierung von IP-Adressen ist unzulässig [ergänzt am 19.02.2010].'']</ref>

== Auswahl von Programmen zur Logdateianalyse ==

[[Open Source|Open-Source]]-Programme zur Logfileanalyse:

* [[Analog (Web Analytics)|Analog]]
* [[AWStats]]
* [[Kibana]]
* [[Matomo]] (früher: Piwik)
* [[RRDtool]]
* [[Webalizer]]

== Literatur ==
* Frank Bensberg: ''Web Log Mining als Instrument der Marketingforschung – Ein systemgestaltender Ansatz für internetbasierte Märkte.'' Wiesbaden 2001, ISBN 3-8244-7309-7.
* R. Kimball, R. Merz: ''The Data Webhouse Toolkit.'' New York u. a. 2000, ISBN 0-471-37680-9.
* C. Lutzky, M.-H. Teichmann: ''Logfiles in der Marktforschung: Gestaltungsoptionen für Analysezwecke.'' In: ''Jahrbuch der Absatz- und Verbrauchsforschung.'' 48. Jahrgang, 2002, S. 295–317.
* B. Massand, M. Spiliopolou: ''Web Usage Analysis and User Profiling.'' Berlin u. a. 2000, ISBN 3-540-67818-2.

== Einzelnachweise ==
<references />

[[Kategorie:Internetüberwachung]]
[[Kategorie:Systemadministration]]

Logdateianalyse - Versionsgeschichte

imported>Reeetac: /* growthexperiments-addlink-summary-summary:1|0|1 */