» Webalizer Tuning - Wie man die Auswertung optimiert

DreieckeNeuen Thread eröffnenNeue Antwort erstellenApache Server Status Monitor ausgeben lassen
AutorNachricht
Administrator 

Name: Marc
Geschlecht:
Anmeldedatum: 28.08.2004
Beiträge: 52423
Wohnort: Lohmar


Meine eBay-Auktionen:
20.01.2009, 00:07
zitieren

Der Webalizer wird häufig unterschätzt, weil er angeblich "falsche" Daten auswirft. Fakt ist aber, dass der Webalizer in der Standardeinstellung einfach nur alles auswertet, was er in den Logfiles findet und das macht er richtig.

Gerne wird mit den AwStats verglichen, weil dieser bessere Daten auswerfen soll. Im Grunde stimmt das, weil AwStats in der Grundeinstellung z.B. Zugriffe von Suchmaschinenbots ignoriert, aber es ist ein leichtes, dass auch in Webalizer zu realisieren.

Diese webalizer.conf habe ich bisher entwickelt:
# settings
LogFile /www/{DEINPFAD}/logs/access_log
OutputDir /www/{DEINPFAD}/usage
HideReferrer Direct Request
HideReferrer deinedomain.de
HostName www.deinedomain.de
HTMLTail <a href="http://www.deinedomain.de/">Startseite</a>
Incremental yes
IndexMonths 36
GraphMonths 36
PageType htm*
PageType cgi
PageType pl
PageType php*
Quiet yes
ReallyQuiet yes
TopSearch 100
TopUsers 0
GroupShading no

# ignore embedded files
IgnoreURL *.gif
IgnoreURL *.jpg
IgnoreURL *.png
IgnoreURL *.js
IgnoreURL *.css
IgnoreURL robots.txt
IgnoreURL favicon.ico

# ignore bots
IgnoreAgent bot
IgnoreAgent Bot
IgnoreAgent crawl
IgnoreAgent Crawl
IgnoreAgent search
IgnoreAgent get
IgnoreAgent spider
IgnoreAgent find
IgnoreAgent java
IgnoreAgent Java
IgnoreAgent Google
IgnoreAgent yahoo
IgnoreAgent ask.com
IgnoreAgent contaxe.com
IgnoreAgent Yandex
IgnoreAgent libwww-perl
IgnoreSite crawl.yahoo.net
IgnoreSite googlebot.com
IgnoreSite search.live.com
IgnoreSite yandex.ru
IgnoreSite 212.222.51.
IgnoreSite ask.com
IgnoreSite bigfinder.de

# filter search strings
SearchEngine www.google. q=
SearchEngine images.google. prev=images%3Fq%3D
SearchEngine icq. q=
SearchEngine live.com q=
SearchEngine yahoo.com p=
SearchEngine ask.com q=
SearchEngine excite. q=

# grouping
# we do not group data, that isn't multiple.
# this won't make sense as it costs performance.

# group agents
GroupAgent Firefox/2 Mozilla Firefox 2
HideAgent Firefox/2
GroupAgent Firefox/3 Mozilla Firefox 3
HideAgent Firefox/3
GroupAgent iPhone iPhone
HideAgent iPhone
GroupAgent MSIE Microsoft Internet Explorer
HideAgent MSIE
GroupAgent Opera/ Opera
HideAgent Opera/
GroupAgent Chrome/ Chrome
HideAgent Chrome/
GroupAgent Safari Safari
HideAgent Safari

# group referers
GroupReferrer google.de/search Google Search
HideReferrer google.de/search
GroupReferrer google.com/search Google Search
HideReferrer google.com/search
GroupReferrer google.at/search Google Search
HideReferrer google.at/search
GroupReferrer google.ch/search Google Search
HideReferrer google.ch/search
GroupReferrer google.com/custom Google Search
HideReferrer google.com/custom
GroupReferrer .104/search Google Search
HideReferrer .104/search
GroupReferrer .132/search Google Search
HideReferrer .132/search
GroupReferrer images.google. Google Images
HideReferrer images.google.
GroupReferrer google.com/imgres Google Images
HideReferrer google.com/imgres
GroupReferrer google.de/imgres Google Images
HideReferrer google.de/imgres
GroupReferrer news.google. Google News
HideReferrer news.google.
GroupReferrer icq.com/search/ ICQ Search
HideReferrer icq.com/search/
GroupReferrer .102/translate_c Google Translate
HideReferrer .102/translate_c
GroupReferrer .104/translate_c Google Translate
HideReferrer .104/translate_c
GroupReferrer yahoo.com/search Yahoo Search
HideReferrer yahoo.com/search
GroupReferrer yahoo.com/images Yahoo Images
HideReferrer yahoo.com/images
GroupReferrer bigfinder.de Bigfinder
HideReferrer bigfinder.de

In den "# settings" sind relativ unwichtige Daten enthalten bis auf:
TopUsers        0

Diese Zeile verhindert die Ausgabe der Login-Namen, die man z.B. per .htaccess Verzeichnisschutz eingibt. Früher war das mit die einzige Möglichkeit, um Besuchern einen passwortgeschützten Bereich anzubieten und man hatte mit der Statistik die Möglichkeit die Anzahl der Besuche pro Name zu ermitteln. Heutzutage nutzt man den Verzeichnisschutz aber eigentlich nur noch für sensible Verzeichnisse wie z.B. acp/ oder phpmyadmin/, daher sollte man die Login-Namen komplett ausblenden. Denn wenn ein Hacker den Namen hat, braucht er nur noch das Passwort ;)

Der "# ignore embedded files" Teil schließt alle Grafiken, Javascript und CSS-Dateien in der Statistik aus. Auf diese Art, werden z.B. Besucher eingebetteter Bilder fremder Seiten, nicht als Besucher der eigenen Seite gezählt (eine der häufigsten Gründe, warum die Besucherzahlen im Webalizer "falsch" sind). Es reicht schon ein Banner, ein Icon oder ein Smilie, um die Statistik enorm zu verfälschen, denn Webalizer sieht in den Logfiles nicht, dass der Zugriff über eine fremde Seite erfolgte.

Als letztes habe ich die favicon.ico und die robots.txt ausgeschlossen. Deren Zugriffszahlen bringen uns sowieso nichts.

Der "# ignore bots"-Teil schließt alle bekannten Bots von der Statistik aus. Wir wissen sowieso, dass diese Bots zu Besuch kommen, also warum sollte man deren Zugriffe überhaupt zählen. Viele Bots kommen mehrmals täglich und besitzen verschiedene IPs, daher verfälschen diese ebenfalls die Statistik.

Der "# filter search strings"-Teil ermittelt die Suchwörter der bekanntesten Suchmaschinen, über die ein Besucher auf die Seite gestoßen ist. Die Standardwerte im original Webalizer sind kaum zu gebrauchen, daher sollte man die aktualisieren. Den Wert für images.google.de teste ich gerade. Da weiß ich nicht, ob der funktioniert.

"# group agents" erklärt sich denke ich von selbst. Wir fassen die verschiedenen Browser-Agenten zusammen.

Bei "# group referers" das gleiche. Wir fassen hier die verschiedenen Referer zusammen.

Im Grunde sollte der Webalizer nun ähnliche Werte wie AwStats auswerfen, außer einem Manko. AwStats hat eine Reload-Sperre pro Nutzer, die bei 60 Minuten liegt. Der Webalizer hat in der Grundeinstellung dagegen 30 Minuten eingestellt. D.h. wenn ein Besucher 30 Minuten lang nicht auf der Seite war, wird er danach als neuer Besucher gezählt. Man kann diese IP-Sperre auf 60 Minuten erhöhen. Dazu gibt es den Wert:
VisitTimeout    3000

Es gibt aber zwei Gründe, warum ich den nicht modifiziert/hinzugefügt habe:

  1. Es ist internationaler Standard die Sperre auf 30 Minuten einzustellen. Alle führenden Statistiken setzen dieses Zeitlimit ein (IVW, Google Analytics, etc.)
  2. Ich weiß nicht genau wie man ihn einstellt :P
    Denn es scheint einen Fehler in der Anleitung zu geben. Die beispielhafte webalizer.conf sagt folgendes:
    ZitatThe value is formatted as HHMMSS where HH=hours, MM=minutes and SS=seconds (use '00').
    während in der Anleitung das steht:
    ZitatThe value is in seconds, and defaults to 30 minutes (1800).



Verfasst am: 12.02.2009, 18:00
zitieren

Ich habe den Code noch mal optimiert. Leider kann man nicht hingehen und die verschiedenen Versionen des Internet Explorers auslesen, obwohl die Anleitung dafür extra einen Trick parat hat:

"MSIE 5" sollte eigentlich alle Internet Explorer der Version 5 erkennen, aber Webalizer interpretiert die Anführungszeichen nicht und erkennt nur das MSIE.

In der Anleitung steht extra, dass man bei Leerzeichen die Anführungszeichen einsetzen soll, aber ich habe im Netz bereits recherchiert und dass dieses Feature nicht funktioniert, wurde schon öfter bemängelt.
pn email
Gast 
12.02.2009, 18:00
zitieren

Mach mit!

Wenn Dir die Beiträge zum Thread "Webalizer Tuning - Wie man die Auswertung optimiert" gefallen haben oder Du noch Fragen hast oder Ergänzungen machen möchtest, solltest Du Dich gleich bei uns anmelden:



Registrierte Mitglieder genießen die folgenden Vorteile:
✔ kostenlose Mitgliedschaft
keine Werbung
✔ direkter Austausch mit Gleichgesinnten
✔ neue Fragen stellen oder Diskussionen starten
✔ schnelle Hilfe bei Problemen
✔ Bilder und Videos hochladen
✔ und vieles mehr...


Neuen Thread eröffnenNeue Antwort erstellen
Ähnliche BeiträgeRe:
Letzter Beitrag
numerologische Auswertung
Hallo, ich benötige ein äußerst simples Programm zur numerologischen Auswertung von Wortlisten, bzw. Texten und Wörterbüchern. Man müßte in diesem Programm eine Wortliste, oder auch ein komplettes Wörterbuch eingeben können, und den Computer dann dazu...
[Jobs & Stellenangebote]von Caveman
1
402
25.11.2011, 16:18
Vierus
Media-Wiki Benutzerbewertung/auswertung
Hallo, ich bin momentan auf der Suche nach einer Möglichkeit die Benutzer zu bewerten/auszuwerten. So ca nach dem Schema: Ein Artikel erstellt = X Punkte, einen Artikel bearbeitet = X Punkte usw, das ganze sollte dann noch in einem Zeitraum...
von r.t.
2
442
17.01.2011, 06:50
Rina6489
 Wallpaper contest - Die Auswertung - Ende morgen 19 uhr
So hier nun die auswertung... Beachtet bitte folgendes: Aufwand der bilder...wie aufwendig es war ein bild zu erstellen Auflösung - unscharf-verpixelt oder sonst sowas.... Gesamt eindruck so die 24 std laufen =) die jenigen dessen...
von Lukas.Honda-Civic@Black
18
1.050
27.05.2008, 22:10
Lukas.Honda-Civic@Black
2video.de wurde optimiert
Ab sofort akzeptiert www.2video.de nur noch Links, die auf HTML-Seiten verweisen. Damit werden fehlerhafte Links abgewiesen und beeinflussen so nicht mehr die allgemeine Performance von 2video.de. Weiterhin wurde ein Fehler im Eingabe-Formular...
von mgutt
3
2.305
22.12.2008, 13:53
mgutt
Mehrere Datenbankabfragen optimiert
Ich hatte ja heute mit Performance-Problemen zu kämpfen: https://www.maxrev.de/server-monitoring-ueber-linux-was-sagen-mir-die-werte-t352069.htm Beziehungsweise stellte sich schlussendlich heraus, dass einfach nur ein Backup lief und gar keine Probleme...
von mgutt
3
166
20.04.2015, 05:33
&weida?
 Sind Analysten besser als der Index? Interessante Auswertung
Habe mich oft gefragt, ob die Analysten besser sind als der Index und wie man deren Wissen nutzt. Habe hier einen Artikel gefunden. Könnte Euch vielleicht...
von trader
0
66
18.01.2011, 16:06
trader
flock() Alternative mkdir() optimiert
Hi, nach diversen Tests kann ich sagen, dass flock() ein Performancekiller ist. Nicht weil der Befehl an sich langsam ausgeführt wird, sondern weil es schnell zu Staus kommt, wenn hunderte verschiedene Prozesse parallel einen flock() ausführen. Erstmal...
[PHP]von mgutt
3
1.563
19.09.2014, 09:28
mgutt
Programm zur Berechnung algebraischer Ausdrücke durch rekursive Auswertung
Hallo Leute! Habt Ihr euch schon mal gefragt, wie ein Programm arbeitet, das algebraische Ausdrücke wie (((105+46)*mpi())/2)+(2*140*sin(155.672 / 2))+(((105-46)*12.164*mpi())/180) verarbeiten kann? Nun, erst kürzlich habe ich meine CD-Sammlunig...
[C]von Guiseppe
0
482
26.01.2020, 18:08
Guiseppe
Automatische Bilderverkleinerung beim Anschauen optimiert
Alle Bilder in Beiträgen werden bekanntlich verkleinert, wenn diese größer sind als die aktuell eingesetzte Bildschirmauflösung. Bisher galt das nur für fremdgehostete Bilder. Das wurde jetzt auch auf Bilder erweitert, die bei uns hochgeladen wurden....
von mgutt
22
2.019
20.04.2010, 10:12
mgutt
Mehr Funktionalität: Bedienung weiter optimiert
Ebenfalls modifiziert wurde die Mittelkonsole: Sie nimmt nun die Digitaluhr auf und bietet einen vergrößerten und leichter erreichbaren Warnblickschalter. Im unteren Bereich findet sich jetzt - ebenfalls leichter erreichbar - der Zigarettenanzünder. Ein...
von mgutt
0
553
21.10.2007, 19:01
mgutt
© 2004 - 2025 www.programmierer-forum.de | Communities | Impressum |