bad.spamihilator.wordlist [14.8.3]

Alles, was mit Spamihilator zu tun hat. (Keine Hilfe, Bugs oder Feature Requests, siehe jeweils dort.)

Moderator: Forum-Team

bad.spamihilator.wordlist [14.8.3]

Beitragvon landx » 14. Aug 2003, 21:48

ACHTUNG:
anbei stelle ich meine bad.spamihilator.wordlist zur Verfügung (Daten des Lernfilters). 390 KB.
Zeit(sammel)raum: April - August 2003.
Diese Liste muß platziert werden unter dem Pfad: ...\training\bad.spamihilator.wordlist

Es bleibt (experimentell ?) zu klären, ob man die Spamihilator-Listen aneinanderketten kann (diese Liste + User eigene Liste) und somit die Lernfilterdaten vervielfältigen kann?
Falls nicht, muß jeder für sich entscheiden, ob er diese oder die eigene Liste verwendet, da die Entscheidung good/bad subjektiv bleibt, d.h. u.U. kann es passieren, dass diese Daten Informationen beinhalten, die jemand anders... einfach antgegengesetzt (good) beurteilen würde.
Windows XP Home. MS Outlook Express 6
GMX,Yahoo,Web.de,1&1 [MS SharePoint]
Pentium 4, 1.8 GHz, 512 MB RAM
Filter-Aggressivität: Normal
Benutzeravatar
landx
Besserwisser
Besserwisser
 
Beiträge: 577
Registriert: 12. Apr 2003, 01:53
Wohnort: Karlsruhe

Re: bad.spamihilator.wordlist [14.8.3]

Beitragvon Mondkind » 14. Aug 2003, 22:12

Ich denke da wäre eine leicht zu importierende (gut überarbeitete) Bad-Wort-List viel besser. Jeder bekommt eine andere Qualität an e-Mails und Spam.
ABER so ein Test ist auf jeden Fall sehr interessant und vielleicht zukunftsweisend. Wäre echt mal gut zu wissen in wieweit die bad-List bei anderen greift.
Benutzeravatar
Mondkind
 
Beiträge: 1597
Registriert: 23. Mai 2003, 00:14
Wohnort: Bremen

Re: bad.spamihilator.wordlist [14.8.3]

Beitragvon Boris » 14. Aug 2003, 22:34

Wäre schon cool, wenn man die Listen auch bearbeiten könnte. Irgendwie zusammenführen... oder sowas.
Das wäre ja vielleicht was für zukünftige Versionen.

Gruß
Boris
"Der Computer löst Probleme, die wir ohne ihn nicht hätten."
Benutzeravatar
Boris
 
Plugin-Programmierer
 
Beiträge: 982
Registriert: 15. Apr 2003, 12:10
Wohnort: München

Re: bad.spamihilator.wordlist [14.8.3]

Beitragvon landx » 14. Aug 2003, 22:55

Mondkind hat geschrieben:Ich denke da wäre eine leicht zu importierende (gut überarbeitete) Bad-Wort-List viel besser.

Wie möchtest Du diesen Klotz bearbeiten und nach welchen Kriterien?
Dafür müßten wir genaustens den LF-Algorithmus (Bayes) kennen, um die Lernpakete zusammenschnürren zu dürfen.

Mondkind hat geschrieben:Jeder bekommt eine andere Qualität an e-Mails und Spam.

Ich glaube nicht, dass Dir eine andere Version von * POLICY VIOLATION ! * angeboten wird? :lol:

Mondkind hat geschrieben:ABER so ein Test ist auf jeden Fall sehr interessant und vielleicht zukunftsweisend. Wäre echt mal gut zu wissen in wieweit die bad-List bei anderen greift.

Ich habe den ersten Schritt getan.
Versucht mal 2 Listen einfach per Zwischenablage zusammenzuführen, um zu testen, ob sie danach noch etwas taugen, oder ob Spami danach zusammenbricht?
Windows XP Home. MS Outlook Express 6
GMX,Yahoo,Web.de,1&1 [MS SharePoint]
Pentium 4, 1.8 GHz, 512 MB RAM
Filter-Aggressivität: Normal
Benutzeravatar
landx
Besserwisser
Besserwisser
 
Beiträge: 577
Registriert: 12. Apr 2003, 01:53
Wohnort: Karlsruhe

Re: bad.spamihilator.wordlist [14.8.3]

Beitragvon Mondkind » 15. Aug 2003, 10:10

landx hat geschrieben:
Mondkind hat geschrieben:Ich denke da wäre eine leicht zu importierende (gut überarbeitete) Bad-Wort-List viel besser.

Wie möchtest Du diesen Klotz bearbeiten und nach welchen Kriterien?
Dafür müßten wir genaustens den LF-Algorithmus (Bayes) kennen, um die Lernpakete zusammenschnürren zu dürfen.

Ich hatte mehr eine schön sortierte Spam-Wortliste (siehe anderer Beitrag :) ) gemeint. Böse Formulierung... :oops:
Anderseits... Michel müsste wissen wie der Filter lernt und seine Bewertung der einzelnen Wörter niederschreibt. Von daher wäre die Datei natürlich mit einem kl. Programm sicher auch editierbar. Importmöglichkeit sollte auch kein Problem sein. :)

landx hat geschrieben:Ich glaube nicht, dass Dir eine andere Version von * POLICY VIOLATION ! * angeboten wird? :lol:

Hehe vielleicht ja in einer N3'er Packung :lol:
Ich meinte natürlich mehr so die Formulierung. Wenn mehr Spam in engl. Auftritt, meistens aber deut .e-Mails reinkommen, hat es eine Non-Spam-Mail in engl. dann natürlich extrem schwer. Ist bei mir ebenso wie bei anderen eine gute Unterscheidung. Deut. Spam-Mails werden aber natürlich trotzdem hervorragend gefiltert. :D

landx hat geschrieben:Ich habe den ersten Schritt getan.
Versucht mal 2 Listen einfach per Zwischenablage zusammenzuführen, um zu testen, ob sie danach noch etwas taugen, oder ob Spami danach zusammenbricht?

Ich glaube da sollte man mind. mit einem Hex-Editor ran gehen, weil ich wohl einen Einstiegspunkt in der Datei gesehen habe. An sonsten sieht das nach einer nicht wiederkehrenden Logik aus. :D
Benutzeravatar
Mondkind
 
Beiträge: 1597
Registriert: 23. Mai 2003, 00:14
Wohnort: Bremen

Re: bad.spamihilator.wordlist [14.8.3]

Beitragvon S3bast1an » 26. Okt 2003, 13:59

Mondkind hat geschrieben:
landx hat geschrieben:Ich habe den ersten Schritt getan.
Versucht mal 2 Listen einfach per Zwischenablage zusammenzuführen, um zu testen, ob sie danach noch etwas taugen, oder ob Spami danach zusammenbricht?

Ich glaube da sollte man mind. mit einem Hex-Editor ran gehen, weil ich wohl einen Einstiegspunkt in der Datei gesehen habe. An sonsten sieht das nach einer nicht wiederkehrenden Logik aus. :D


Hey,

die Logik ist folgenden:

12 Bytes Header Infos:

4 Bytes: Versionstring als long
4 Bytes: Anzahl der Wörter in der Datei als long
4 Bytes: Anzahl der verwursteten Emails als long
4 Bytes: -ohne Sinn- ??? als long

Dann kommen nacheinander die Datensaetze:

1 Byte: Länge des jeweiligen Wortes (1..255 Zeichen)
x Bytes: das Wort selbst (Länge siehe oben)
4 Bytes: Zählvariable als long

ein zusammenkopieren haut als nicht hin ...

Gruss
S.
childintime[äht]gmx.de ;) ...
Tragt eure Mailkontodaten hier ein, damit für möglichst viele Provider Hilfe angeboten werden kann.
Bild
Benutzeravatar
S3bast1an
Forumjunkie
Forumjunkie
 
Plugin-Programmierer
 
Beiträge: 1432
Registriert: 3. Jul 2003, 18:14
Wohnort: Bärlin

Re: bad.spamihilator.wordlist [14.8.3]

Beitragvon michel » 26. Okt 2003, 15:36

Hast du das selbst rausgefunden oder hab ich dir das mal zugeschickt? ;-)

CU
Michel
Chuck Norris doesn't kill Spam. He uses Spamihilator! ;-)
Benutzeravatar
michel
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
Plugin-Programmierer
 
Beiträge: 4314
Registriert: 22. Mär 2003, 02:16
Wohnort: Buseck

Re: bad.spamihilator.wordlist [14.8.3]

Beitragvon S3bast1an » 26. Okt 2003, 15:40

michel hat geschrieben:Hast du das selbst rausgefunden oder hab ich dir das mal zugeschickt? ;-)

CU
Michel


Weder noch .. ich hab noch den alten Source ... wenn ichs mir aber so ansehe, hat das ganze ziemlich den Aufbau einer Palmpilot-Datenbank :)

Gruss
S.
childintime[äht]gmx.de ;) ...
Tragt eure Mailkontodaten hier ein, damit für möglichst viele Provider Hilfe angeboten werden kann.
Bild
Benutzeravatar
S3bast1an
Forumjunkie
Forumjunkie
 
Plugin-Programmierer
 
Beiträge: 1432
Registriert: 3. Jul 2003, 18:14
Wohnort: Bärlin

Re: bad.spamihilator.wordlist [14.8.3]

Beitragvon michel » 26. Okt 2003, 18:43

S3bast1an hat geschrieben:Weder noch .. ich hab noch den alten Source ... wenn ichs mir aber so ansehe, hat das ganze ziemlich den Aufbau einer Palmpilot-Datenbank :)

Achso! Cool!
Allerdings habe ich mich nicht an einer Palmpilot-Datenbank orientiert. Das Format ist einfach so entstanden, weil es zweckmäßig war.

CU
Michel
Chuck Norris doesn't kill Spam. He uses Spamihilator! ;-)
Benutzeravatar
michel
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
Plugin-Programmierer
 
Beiträge: 4314
Registriert: 22. Mär 2003, 02:16
Wohnort: Buseck

Re: bad.spamihilator.wordlist [14.8.3]

Beitragvon S3bast1an » 27. Okt 2003, 00:07

michel hat geschrieben:Hast du das selbst rausgefunden oder hab ich dir das mal zugeschickt? ;-)


Verraetst Du uns noch die genaue Formel nach der der Filter vorgeht?
Wozu dienen denn die Zahl der Mails ?

Gruss
S.
childintime[äht]gmx.de ;) ...
Tragt eure Mailkontodaten hier ein, damit für möglichst viele Provider Hilfe angeboten werden kann.
Bild
Benutzeravatar
S3bast1an
Forumjunkie
Forumjunkie
 
Plugin-Programmierer
 
Beiträge: 1432
Registriert: 3. Jul 2003, 18:14
Wohnort: Bärlin

Re: bad.spamihilator.wordlist [14.8.3]

Beitragvon michel » 27. Okt 2003, 10:44

Wie immer: schick mir mal ne E-Mail, damit ich sie beantworten kann, wenn ich nachher zu Hause bin. Ich hab die Formel im Moment auch nicht im Kopf. :D :D

CU
Michel
Chuck Norris doesn't kill Spam. He uses Spamihilator! ;-)
Benutzeravatar
michel
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
Plugin-Programmierer
 
Beiträge: 4314
Registriert: 22. Mär 2003, 02:16
Wohnort: Buseck

Re: bad.spamihilator.wordlist [14.8.3]

Beitragvon S3bast1an » 27. Okt 2003, 20:14

michel hat geschrieben:Wie immer: schick mir mal ne E-Mail, damit ich sie beantworten kann, wenn ich nachher zu Hause bin. Ich hab die Formel im Moment auch nicht im Kopf. :D :D


Hey,

super .. hoffe ich blicke da dann auch durch :)

Gruss
S.
childintime[äht]gmx.de ;) ...
Tragt eure Mailkontodaten hier ein, damit für möglichst viele Provider Hilfe angeboten werden kann.
Bild
Benutzeravatar
S3bast1an
Forumjunkie
Forumjunkie
 
Plugin-Programmierer
 
Beiträge: 1432
Registriert: 3. Jul 2003, 18:14
Wohnort: Bärlin

Re: bad.spamihilator.wordlist [14.8.3]

Beitragvon Mondkind » 27. Okt 2003, 21:30

S3bast1an hat geschrieben:Hey,

super .. hoffe ich blicke da dann auch durch :)

Warst Du gut in Mathematik bzw. Physik? Je nach dem...
Das kann sich positiv auf das Verstehen von Formeln auswirken! :wink: :lol: :wink: :lol:

Gruss
Roman
Benutzeravatar
Mondkind
 
Beiträge: 1597
Registriert: 23. Mai 2003, 00:14
Wohnort: Bremen

Re: bad.spamihilator.wordlist [14.8.3]

Beitragvon S3bast1an » 27. Okt 2003, 23:45

Mondkind hat geschrieben:
S3bast1an hat geschrieben:Hey,

super .. hoffe ich blicke da dann auch durch :)

Warst Du gut in Mathematik bzw. Physik?


Mathe + Physik Leistungskurs .. also schweig stille ... Ungläubiger :twisted:

Gruss
S.
childintime[äht]gmx.de ;) ...
Tragt eure Mailkontodaten hier ein, damit für möglichst viele Provider Hilfe angeboten werden kann.
Bild
Benutzeravatar
S3bast1an
Forumjunkie
Forumjunkie
 
Plugin-Programmierer
 
Beiträge: 1432
Registriert: 3. Jul 2003, 18:14
Wohnort: Bärlin

Re: bad.spamihilator.wordlist [14.8.3]

Beitragvon Kühn » 5. Feb 2004, 12:29

Hallo,

Auszug aus ca. 117.000 Wörter good_wordlist
via 557
* POLICY VIOLATION ! * 6
viägr 1
v'i'a'g'r'a 3
viägra 1
víagra 12

005004bfaa41 1
0050dac65330 11
0050dac68030 105
00eur 11
00eur23 1
0190er 62
019x 2
01c3a36d 19
023bedfb71f66eb 3


bad_wordlist ca. 160.000 Wörter
viahgra 1
* POLICY VIOLATION ! * 38
* POLICY VIOLATION ! * 3
* POLICY VIOLATION ! * 1
* POLICY VIOLATION ! * 2
* POLICY VIOLATION ! * 2
* POLICY VIOLATION ! * 2
* POLICY VIOLATION ! * 1
* POLICY VIOLATION ! * 1
* POLICY VIOLATION ! * 2
* POLICY VIOLATION ! * 1
víagra 100
v'i'a'g'r'a 5
* POLICY VIOLATION ! * 1
* POLICY VIOLATION ! * 1
* POLICY VIOLATION ! * 2
* POLICY VIOLATION ! * 1
* POLICY VIOLATION ! *$ra 1
víag 1
* POLICY VIOLATION ! * 89
viafr 1
viaegra 3
viable 4
viaai8ihgra 1
viaaggraaa 3
vía 2
via 1242


Kann man die Listen nicht doch irgendwie beeinflussen?
Manche * POLICY VIOLATION ! * Abwandlungen haben in der Good Liste eine höhere Bewertung als ind der Bad u. das ist bei einigen unerwünschten begriffen so. Dann habe ich noch viele sinnlose Zahlenketten in der Goodliste.
CU Kühn
..:: Spamihilator 0.9.9.13, OE ::..
http://www.doberlug.de/
1005 - 2005 ... 1.000 Jahre Doberlug http://www.doberlug-kirchhain.de/
Benutzeravatar
Kühn
Spam-Massenmörder
Spam-Massenmörder
 
Beiträge: 118
Registriert: 14. Mai 2003, 11:10
Wohnort: Doberlug-Kirchhain

Nächste

Zurück zu Allgemein

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste

 industrious-southeast