Zum Inhalt springen

Bayes Spamfilter im Einsatz

Seit kurzem gibt es über Spartacus den „Spamschutz (Bayes)“ für [[Serendipity]] zum Download.

Wer es gerne theoretisch mag, kann über den „Bayesschesen Filter“:http://de.wikipedia.org/wiki/Bayessches_Filter in der Wikipedia nachlesen.

Kurz und vereinfacht gesagt durchsucht der Filter jeden Kommentar bzw. jedes Trackback und bewertet ob die einzelnen Wörter eher einer Spam entsprechen oder nicht.

Aber nun zum neuen PluginZur Entstehungsgeschichte findet sich ein entsprechender „Thread im S9y Forum“:http://board.s9y.org/viewtopic.php?f=4&t=15849 und die „Erste Ankündigung“:http://www.onli-blogging.de/index.php?/814/Spamblock-Bayes-veroeffentlicht.html im onli Blog.

Wie es sich für gute S9y Programmierer gehört 😉 gibt es natürlich auch schon „erste Verbesserungen“:http://www.onli-blogging.de/index.php?/835/Spamblock-Bayes-Verbesserungen-am-Frontend.html.

Grundlage für das Plugin ist „b8“:http://nasauber.de/opensource/b8/, ein auf PHP implementierter Bayesscher Spam-Filter.

Über das Plugin wird auch in den Kommentaren eines „Beitrags von Dirk Deimeke“:http://www.deimeke.net/dirk/blog/index.php?/archives/1915-Spamblock-Bayes-….html diskutiert.

Im Moment ist das Plugin noch nicht in die Kommentaransicht der Verwaltungsoberfläche von S9y integriert. Das ist technisch, wie auch bedienungsmäßig nicht ganz einfach. Denn ein Kommentar, den ich auf „moderieren“ schalte, muss nicht gleich auch Spam sein.

Im Moment ist das Bayes Spamfilter Plugin bei mir im Einsatz und hat auch ersten Spam abgefangen. Die meisten werden aufgrund meines Textfilters oder der automatischen Moderation von Kommentaren zu älteren Artikeln schon vorher abgefangen.

Allein ein Kommentar kam heute durch. Dieser sah auch unverdächtig aus. Allein der Link führte zu einer meiner Meinung nach bedenklichen Website. Aber das scheitert auch ein Bayes Filter.

Auf alle Fälle würde ich mich freuen, wenn das Plugin noch weiter entwickelt wird. Denn dann spart man sich auch das Filtern durch externe Services wie Akismet oder Typepad Antispam. Denn das weiterleiten von Kommentaren zur Begutachtung durch einen externen Service ist halt auch so eine fragliche Sache.

Sobald es Neues zu berichten gibt werde ich es hier gern tun.

11 Kommentare

  1. Danke für die Vorstellung. Es wird bestimmt weitergehen, derzeit ist aber scheinbar erstmal ein guter Zustand erreicht, sodass das Plugin wie gewünscht funktioniert.

    Einzig die Integration in die Kommentaransicht, das steht jetzt auf meiner ToDo, ich habe ja aber schon beschrieben, dass das etwas Vorlauf erfordern würde (und für die Anpassungen will ich die Veröffentlichung der 1.5 abwarten) und du hast ja auch gut dargestellt, welche bedienungstechnischen Hürden es zu nehmen gilt.
    Gruß

    • Danke auch für deine Bemühungen. Ich schaue mir auch mal an, wie gut der Filter läuft – denn das ist ja das wichtigste.
      Eine bessere Integration wäre aber für die Usability sicherlich hilfreich. Aber warten wir mal S9y 1.5 ab und schauen dann weiter.
      Auch hier nochmals geschrieben: Wenn du einen Betatester brauchst, hier ist einer 🙂

      • Ich finde, das sollte ich hier erwähnen: Inzwischen sind die Kontrollen integriert.

        • Ja, das sollst und und musst du hier erwähnen 🙂 Habe es gerade über „Plugin Updates suchen“ entdeckt und gleich „getwittert“:http://twitter.com/RobLen/status/7096859540.

          Schreibst du noch was drüber. Mich würde interessieren, was die Prozentzahlen aussagen.
          Ich dachte zuerst den Grad der „Spamhaftigkeit“. Aber ich habe testhalber einen Kommentar mit „valid“ gekennzeichnet und die Zahl ist trotzdem von 2 auf 4 Prozent gestiegen.

          Ansonsten: Super, der Sprung auf Versionsnummer 0.2 ist mehr als gerechtfertigt und das Plugin hilft mir sehr mein Blog spamfrei zu halten. Danke für deine/eure Mühe.

          • Eine Vorstellung der Änderung steht schon „in meinem Blog“:http://www.onli-blogging.de/index.php?/877/Spamblock-Bayes-0.2-Update-in-Spartacus.html 😉

            Es ist tatsächlich der Grad der
            „Spamhaftigkeit“. Der sollte durch valid nicht generell steigen, aber ich denke, das kann vorkommen, wenn neue Textbestandteile markiert werden und sich dadurch was verschiebt („wichtiger“ wird).

            Kommentare werden als Spam erkannt, wenn der Faktor größer als 80% ist. Automatisches Lernen schlägt ab 90% an.

            Freut mich, dass es weiterhin für dich funktioniert. Geb mir Bescheid, wenn etwas nicht mehr so tut wie es soll.

            • Danke für die Erklärung. Auf den Eintrag werde ich gerne verweisen.

              Bisher sind nur zwei, drei Spams durchgekommen. Wobei bei zwei eigentlich alles ok war – aber im Zusammenhang klar wurde, dass der Kommentator nur seinen Link plazieren wollte. So etwas kann wohl kein (Bayes)Spamfilter erkennen.

  2. Mit Spams ist nicht zu spassen. Über Trackbacks und per Kommentar kommen täglich hundert und mehr nervige Nachrichten, die es gilt abzufangen. Nachfolgend ein paar Zeilen zu meiner jetzigen Strategie. Captchas Zuerst, was es auf meinem Blog nicht gib

  3. Vor einem Monat berichtete ich über den neuen Bayes Spamfilter für Serendipity. Nunmehr gibt es ein Update auf die Version 0.2, wie onli blogging berichtet. Das größte Plus ist, dass der Filter ab nun in die Kommentarverwaltung vollständig integriert

  4. Vor einem Monat berichtete ich über den neuen Bayes Spamfilter für Serendipity. Nunmehr gibt es ein Update auf die Version 0.2, wie onli blogging berichtet. Das größte Plus ist, dass der Filter ab nun in die Kommentarverwaltung vollständig integriert

  5. Das Serendipity Bayes Plugin, das Kommentar- und Trackback Spam aus dem Blog entfernen kann, ist schon etwas älter. Schon 2009 berichteten Dirk, Robert und Matthias darüber. Bayessches Filter – WikipediaDas (auch: der) bayessche Filter (auch al

  6. Wieder mal taucht im Dialog die Frage auf, ob man denn nicht doch Captchas verwenden kann. Immerhin gäbe es auch welche die nicht nur grafisch sondern auch auditiv sind und somit für blinde oder gehörlose Menschen funktionieren (sollten). Ich habe dahe

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert