S3bast1an hat geschrieben:hatte schon mal ueberlegt, ob man die URLs irgendwie bereinigt. Das Probleme sind so Sachen wie xxxxx.co.uk oder mit .jp gibts auch sowas ... vielleicht so: die URL, dann 6 Zeichen von hinten zurueck und dann rueckwaerts weiter zum naechsten Punkt oder halt bisz um Anfang ... und dort abschneiden .. damit muesste man diese URLs eigentlich kriegen, oder ?!?
Das hab ich nicht verstanden, kann daher auch nicht sagen, ob das eine Lösung wäre.
Betrachten wir's doch nochmal an folgendem Rattenschwanz-Beispiel:
http://
villainous.pitchstone.deferent.thai.blasterz.biz/creatives/patch/
Der Filter erkennt hier in der Mail den blauen String als URL und schreibt ihn in die all_urls. Steht dieser komplette String noch nicht auf der blacklist, dann wird er dort ergänzt. Ist er bereits vorhanden, wird er nicht ein zweites Mal in die blacklist geschrieben.
Wenn man den Eintrag in der blacklist kürzt auf
blasterz.biz, dann hat der Filter bei folgenden Prüfungen kein Problem, diesen Substring in allen nur denkbaren Varianten dieser URL zu erkennen und jede Mail, die diesen Substring enthält auszufiltern. Sehr schön! Aber: Tauchen solche Rattenschwänze erneut auf, geht's wieder von vorne los. D.h., der Filter erfasst den Rattenschwanz in der all_urls und findet den kompletten String natürlich nicht auf der blacklist, weil wir ihn dort ja gekürzt haben. Er hält ihn also für eine neue URL, die er noch nicht kennt, und schreibt sie auf die blacklist.
Hier - stelle ich mir vor - müsste man ansetzen. Der Filter prüft doch: Kenne ich die URL schon oder kenne ich sie noch nicht? Er müsste an dieser Stelle also nicht nur auf komplette Strings prüfen, sondern auch Substrings in einem längeren String erkennen und sagen "aha, kenne ich schon." (da der Filter berlinisch spricht, würde er wohl sagen: "dir Aas kenne ick!"

) Und in diesem Fall den längeren String (Rattenschwanz) nicht nochmal auf die blacklist setzen. (In diesem Fall auch die Wiederholung erkennen und auf die black_success setzen.)
Ob da also mit Punkt und vor und zurück was zu machen ist, weiss ich nicht. Wie macht das denn der Substring-Filter? Der erkennt doch auch einen Teil im Ganzen.
Hier sind wohl zwei Lösungen denkbar:
1. Möglicherweise überlegst Du, wie sich der Filter schon bei der Ersterkennung auf diesen spamrelevanten Kern beschränken könnte - richtig? Dann würde also schon der Rattenschwanz gar nicht erst auf der blacklist landen, sondern nur
blasterz.biz. Wenn das realisierbar wäre - OK.
2. Ich hatte eine bescheidenere Lösung im Sinn: Bei der Ersterkennung möge er ruhig das Ganze erkennen und auf die blacklist setzen. Kürzen kann das dann jeder wie er will. Aus meiner Sicht wäre es schon eine Verbesserung, wenn's nur bei der Wiedererkennung liefe wie beschrieben.
Gruss von
Susi