landx hat geschrieben:Mondkind hat geschrieben:Ich denke da wäre eine leicht zu importierende (gut überarbeitete) Bad-Wort-List viel besser.
Wie möchtest Du diesen Klotz bearbeiten und nach welchen Kriterien?
Dafür müßten wir genaustens den LF-Algorithmus (Bayes) kennen, um die Lernpakete zusammenschnürren zu dürfen.
Ich hatte mehr eine schön sortierte Spam-Wortliste (siehe anderer Beitrag

) gemeint. Böse Formulierung...

Anderseits... Michel müsste wissen wie der Filter lernt und seine Bewertung der einzelnen Wörter niederschreibt. Von daher wäre die Datei natürlich mit einem kl. Programm sicher auch editierbar. Importmöglichkeit sollte auch kein Problem sein.
landx hat geschrieben:Ich glaube nicht, dass Dir eine andere Version von * POLICY VIOLATION ! * angeboten wird?

Hehe vielleicht ja in einer N3'er Packung

Ich meinte natürlich mehr so die Formulierung. Wenn mehr Spam in engl. Auftritt, meistens aber deut .e-Mails reinkommen, hat es eine Non-Spam-Mail in engl. dann natürlich extrem schwer. Ist bei mir ebenso wie bei anderen eine gute Unterscheidung. Deut. Spam-Mails werden aber natürlich trotzdem hervorragend gefiltert.
landx hat geschrieben:Ich habe den ersten Schritt getan.
Versucht mal 2 Listen einfach per Zwischenablage zusammenzuführen, um zu testen, ob sie danach noch etwas taugen, oder ob Spami danach zusammenbricht?
Ich glaube da sollte man mind. mit einem Hex-Editor ran gehen, weil ich wohl einen Einstiegspunkt in der Datei gesehen habe. An sonsten sieht das nach einer nicht wiederkehrenden Logik aus.
