Mit Spams ist nicht zu spassen. Über Trackbacks und per Kommentar kommen täglich hundert und mehr nervige Nachrichten, die es gilt abzufangen.
Nachfolgend ein paar Zeilen zu meiner jetzigen Strategie.h2. Captchas
Zuerst, was es auf meinem Blog nicht gibt: Captchas. Wohl jedeR kennt diese nervigen Grafiken mit unkenntlichen Zeichen, die man eintippen muss um einen Kommentar abgeben zu können.
Das nervt nicht nur Menschen mit einem guten Sehvermögen. Sehbehinderte und insbesondere blinde Menschen scheitern spätestens hier beim kommentieren.
Außerdem kann man „Captchas immer besser aushebeln“:https://nureinblog.at/2329-Unfreiwillige-Spamhilfe.html. Ein Alternative zeigte der „Accessibility Stammtisch Spamabwehr“:https://nureinblog.at/2329-Unfreiwillige-Spamhilfe.html.
Meiner einer kann sich die vorgestellte Methodik nicht selbst programmieren. Daher nun zu meiner Vorgehensweise, die mit Plugins in [[Serendipity]] unterstützt werden.
h2. Zeitsperre
Die meisten kommentieren einen Beitrag innerhalb von ein paar Tagen nach seinem erscheinen. Daher werden Kommentare für ältere Beiträge automatisch moderiert.
Die Moderation erfordert täglich ein wenig Zeitaufwand. Daher sollten natürlich nicht zu viele Artikel so bearbeitet werden müssen.
h2. Wortfilter
Erste Abwehr ist daher ein Wortfilter. Kommentare oder Trackbacks, die sich im Filter verfangen werden automatisch gelöscht. Hilfreich sind dafür auch „reguläre Ausdrücke“:https://nureinblog.at/2460-Regulaere-Ausdruecke-zur-Spambekaempfung-in-Serendipity um den Wortfilter variabler zu machen.
Ein deutschsprachiges Blog hat natürlich den Vorteil, dass man etliche englische Ausdrücke eher in den Wortfilter einspeisen kann.
Hin und wieder „analysiere“ ich die hereingekommenen Spams und befüttere den Wortfilter mit neuen Begriffen. Die ganzen Namen der „Wundermittel“ für Gesundheit und Co. in der Liste führen schon zu einem geringeren Spamaufkommen in der Moderationsliste.
h2. Bayesfilter
Nach Akismet habe ich etliche Zeit „TypePad Antispam“:https://nureinblog.at/2756-Ich-teste-TypePad-Antispam-fuer-Serendipity verwendet. Dabei werden alle Kommentare/Trackbacks an einen externen Dienst zur Beurteilung geschickt. Das ist natürlich nicht unumstritten. Einerseits sammelt ein Dritter Kommentare auf meinem Blog, wobei ich die abgeschwächte Variante ohne Übermittlung der Mailadresse verwendete. Andererseits habe ich keinen Einfluss darauf wie der Dienst etwas als Spam beurteilt.
Daher habe ich nunmehr das „Bayes Spamfilter Plugin“:https://nureinblog.at/2980-Bayes-Spamfilter-im-Einsatz im Einsatz. Dies ist ebenso ein Wortfilter. Dabei lernt aber der Filter bei jedem neuen Kommentar und gewichtet alle Worte darin. Daraus entsteht langsam eine Bewertung, wie spammig ein Kommentar sein könnte.
h2. Bisherige Ergebnisse
Blicke ich auf das Spamblock Logfile, so sehe ich, dass sich sehr viele Spams schon im Wortfilter verfangen.
Danach schlägt der Zeitfilter zu.
An dritter Stelle der Abwehrfront kommt dann der Bayesfilter zum Einsatz. Dieser hat bisher alle noch durchgekommenen Spams brav erkannt. Daher habe ich das Alter von Artikeln bei denen der Zeitfilter zum Einsatz kommt erhöht.
Fazit: In den letzten 3 Wochen wurde nur ein einziger Kommentar fälschlich als Spam identifiziert, was aber an der langen Liste von Links darin lag. Eine Spam wurde nicht erkannt. Aber auch ich musste zweimal überlegen, ob dieser deutschsprachige Kommentar ernst gemeint war oder nicht.
Damit hat sich die Spamabwehr recht bewährt. Die tägliche Zeit für einige wenige Moderationsarbeiten liegt unter 1 Minute. Im nächsten Schritt werde ich die Zeitsperre noch weiter runterschrauben um zu sehen, wie sich der Bayesfilter dann bewährt. Sollte es gut funktionieren, dann werde ich entsprechend gefilterte Beiträge automatisch löschen lassen.
Aber eins nach dem anderen…
Vor einem Monat berichtete ich über den neuen Bayes Spamfilter für Serendipity. Nunmehr gibt es ein Update auf die Version 0.2, wie onli blogging berichtet. Das größte Plus ist, dass der Filter ab nun in die Kommentarverwaltung vollständig integriert