Frage zum neuen Beta-URL-Plugin

Brauchen Sie Hilfe beim Benutzen eines Plugins?

Moderator: Forum-Team

Frage zum neuen Beta-URL-Plugin

Beitragvon Florian » 18. Nov 2003, 16:24

Das neue URL-Plugin (Betaversion) läuft bei mir prima. Mit einer kleinen Starthilfe in Form der alten URL-Blackliste hat es in den letzten 4 Tagen schon 101 Spams ausgefiltert (ca. ein Drittel der Spams). Es läuft bei mir ohne Probleme und lernt fleisig neue URLs. Die neuen Success-Listen sind eine tolle Idee!

Zwei Fragen dazu:

Ich hatte ein paarmal Leerzeilen in den URL-Listen (normale Liste und success-Liste). Bedeutet das, dass das Plugin das Ende der URL nicht richtig erkannt hat und einen Zeilenumbruch mitgespeichert hat?

Im Logfile stand bisher immer "0" für Nicht-Spam und "1" für Spam. In der neuesten Version gibt es auch eine "3". Was bedeutet die?

Florian
Florian
Spam-Terminator
Spam-Terminator
 
Beiträge: 52
Registriert: 18. Nov 2003, 15:38

Re: Frage zum neuen Beta-URL-Plugin

Beitragvon Florian » 19. Nov 2003, 14:20

Florian hat geschrieben:Im Logfile stand bisher immer "0" für Nicht-Spam und "1" für Spam. In der neuesten Version gibt es auch eine "3". Was bedeutet die?


Noch ein Nachtrag zu meiner Frage:
Es scheint mir so, als kämen im Moment alle neuen Blacklist-URLs auch gleich in die Success-Blackliste, auch wenn sie zum ersten Mal gefunden wurden.
Im Plugin-Log sieht das so aus:


3----------------------------------------------------------------
Nachricht wird gelernt ----------------------------------------------------------------

Return-path: <b-MSG u.s.w.
u.s.w.
u.s.w.

----------------------------------------------------------------
Folgende URLs gefunden:
----------------------------------------------------------------

hostingsking.biz
hostingsking.biz
hostingsking.biz
hostingsking.biz
hostingsking.biz
hostingsking.biz
hostingsking.biz
hostingsking.biz

1----------------------------------------------------------------
Nachricht wird gelernt (SPAM)
----------------------------------------------------------------

cJolnzsdWMQKgLlooQUjHtMfqORj u.s.w.
u.s.w.
u.s.w.

----------------------------------------------------------------
Folgende URLs gefunden:
----------------------------------------------------------------

hostingsking.biz
hostingsking.biz
hostingsking.biz
hostingsking.biz

1----------------------------------------------------------------
Nachricht wird gelernt (SPAM)
----------------------------------------------------------------



Das war zweimal die gleiche Email, beim ersten Log-Eintrag (3) ist aber der gesamte Email-Header mit angezeigt, beim zweiten nicht (den Emailinhalt habe ich aus Platzgründen weggelassen und dafür "u.s.w." eingefügt). Die URL war neu und stand anschliessend sowohl in new-urlfilter_blacklist als auch in new-black_success.

Florian
Florian
Spam-Terminator
Spam-Terminator
 
Beiträge: 52
Registriert: 18. Nov 2003, 15:38

Re: Frage zum neuen Beta-URL-Plugin

Beitragvon S3bast1an » 19. Nov 2003, 18:56

Florian hat geschrieben:Im Logfile stand bisher immer "0" für Nicht-Spam und "1" für Spam. In der neuesten Version gibt es auch eine "3". Was bedeutet die?


3 steht fuer Spamerkennung (also nicht lernen) .. insoweit ist die Ueberschrift falsch, aber ist ja eh nur der experimentelle Log ...

Der ganze Header und alles ist dabei, da diese Daten zum Erkennen der Mails vom Filter ausgewertet werden.

Beim Lernen kann er leider derzeit nur auf den reinen Text zuruekcgreifen (siehe auch Ausfuehrungen an anderer Stelle im Forum)

Gruss
S.
childintime[äht]gmx.de ;) ...
Tragt eure Mailkontodaten hier ein, damit für möglichst viele Provider Hilfe angeboten werden kann.
Bild
Benutzeravatar
S3bast1an
Forumjunkie
Forumjunkie
 
Plugin-Programmierer
 
Beiträge: 1432
Registriert: 3. Jul 2003, 18:14
Wohnort: Bärlin

Re: Frage zum neuen Beta-URL-Plugin

Beitragvon Susi » 19. Nov 2003, 21:43

Florian hat geschrieben:Es scheint mir so, als kämen im Moment alle neuen Blacklist-URLs auch gleich in die Success-Blackliste, auch wenn sie zum ersten Mal gefunden wurden...Das war zweimal die gleiche Email...

Das kann ich nach ersten Tests nicht bestätigen. Im Gegenteil: Bei genauem Abgleich der einzelnen Listen stelle ich fest, dass in die black_success tatsächlich nur Black-URLs geschrieben werden, die bereits auf der blacklist standen und wiederholt aufgetreten sind.

Bislang hatte ich nur eine Ausnahme: Eine Mail war durch alle Filter geschlüpft, die enthaltene neue URL stand nach dem Training auf der black_success. Müsste aber länger beobachtet werden, ob dieser Fehler regelmässig auftritt.

Wäre vielleicht bei Deinem Beispiel folgendes denkbar? Wenn die Mail doppelt vorkam, dann landet die neue URL bei der ersten Prüfung erstmals auf der blacklist. Bei Prüfung der Dublette ist diese Black-URL also bereits bekannt und wird auf die black_success gesetzt. Dadurch sieht es so aus, als sei eine neue Black-URL gleich auf die black_success gesetzt worden. Wäre genau genommen kein Fehler, denn diese URL wäre ja schon im ersten Maileingang wiederholt aufgetreten. - Das würde allerdings nicht erklären, warum das auch bei neuen URLs passiert, die nicht gleich in zwei Mails auftreten...

Gruss von
Susi
Benutzeravatar
Susi
Spam-Terminator
Spam-Terminator
 
Beiträge: 95
Registriert: 30. Jul 2003, 19:08

Re: Frage zum neuen Beta-URL-Plugin

Beitragvon S3bast1an » 20. Nov 2003, 00:55

Florian hat geschrieben:Es scheint mir so, als kämen im Moment alle neuen Blacklist-URLs auch gleich in die Success-Blackliste, auch wenn sie zum ersten Mal gefunden wurden...Das war zweimal die gleiche Email...


Dies kann dann passieren wenn eine Mail eine URL mehrfach beinhaltet ... DENN:

Es gibt zwei Ablaeufe bei denen eine Mail durchsucht wird:

"Erkennen"
- black- und whitelist werden durchgegangen und die Mail auf das vorkommen der URLs geprueft. Wenn eine URL in der Mail vorkommt, wird sie der entsprechenden successliste hinzugefuegt.

"lernen"
- URLs werden nach Spam oder NonSpam gelernt und soweit sie auf einer Liste schon stehen auf die successliste geshrieben. Da die URLs nacheinander abgearbeitet werden und eben auch gelernt werden, werden sie beim mehrfachen auftreten in EINER Mail auch gleich der successliste hinzugefuegt.

So ist das Problem ... wenns denn eins ist.
Man koennte die successlisten auch nur aus dem Erkennen füttern, allerdings waeren dann die Mails, die den Filter nicht erreichen und die von Freunden und "Feinden" nicht dabei und wuerden so ueberhaupt nicht untersucht ..

Was macht man nun ?!?

Susi hat geschrieben:Das kann ich nach ersten Tests nicht bestätigen. Im Gegenteil: Bei genauem Abgleich der einzelnen Listen stelle ich fest, dass in die black_success tatsächlich nur Black-URLs geschrieben werden, die bereits auf der blacklist standen und wiederholt aufgetreten sind.


s.o.

Gruss
S.
childintime[äht]gmx.de ;) ...
Tragt eure Mailkontodaten hier ein, damit für möglichst viele Provider Hilfe angeboten werden kann.
Bild
Benutzeravatar
S3bast1an
Forumjunkie
Forumjunkie
 
Plugin-Programmierer
 
Beiträge: 1432
Registriert: 3. Jul 2003, 18:14
Wohnort: Bärlin

Re: Frage zum neuen Beta-URL-Plugin

Beitragvon Florian » 20. Nov 2003, 14:47

S3bast1an hat geschrieben:
Florian hat geschrieben:Es scheint mir so, als kämen im Moment alle neuen Blacklist-URLs auch gleich in die Success-Blackliste, auch wenn sie zum ersten Mal gefunden wurden...


Dies kann dann passieren wenn eine Mail eine URL mehrfach beinhaltet ...


Danke für die Erklärungen! Das ist sicher der Grund für meine schnellen Success-Listen-Einträge. Soweit ich mich erinnere, enthielten die Emails, die ich mir angesehen hatte weil sie gleich in der Success-Liste landeten, alle das URL mehrfach, mein Beispiel von oben ja auch (gleich achtmal).


S3bast1an hat geschrieben:Was macht man nun ?!?


Ich würde das erstmal so lassen. Ist vielleicht gar nicht so schlecht. Eintagsfliegen-URLs bleiben dann halt ein bisschen länger auf der Liste, aber das ist eher von Vorteil (wenn's vielleicht doch keine Eintagsfliegen sind). Mal sehen, wie es sich bewährt, wenn der Filter eine Zeit lang gelaufen ist.
Bei mir läuft er immernoch prima und hat inzwischen schon 144 Spams gefiltert. Die Erkennungsrate ist in den letzten Tagen ganz leicht angestiegen und liegt jetzt bei 34% der Spams.

Viele Grüße
Florian
Florian
Spam-Terminator
Spam-Terminator
 
Beiträge: 52
Registriert: 18. Nov 2003, 15:38

Re: Frage zum neuen Beta-URL-Plugin

Beitragvon Susi » 20. Nov 2003, 17:04

Hallo Sebastian, Florian und alle weiteren URLF-Beta3-Tester!

Nach drei Test-Tagen rundet sich bei mir das Bild allmählich. Vorläufig erscheinen mir folgende Punkte wesentlich:

1. Was auf der blacklist steht wird sauber auf die black_success gesetzt. Immer nur einmal, nicht wiederholt. Damit bietet der URL nun eine einzigartige Kombination: 100% eindeutige Spamkriterien plus eine Erfolgskontrolle für jedes einzelne der erfassten Spamkriterien! :P

Mit der black_success generiert der URLF im Prinzip aus einer vorhandenen blacklist fortlaufend eine neue, erfolgskontrollierte blacklist. In bestimmten Intervallen müsste man nur die eine Liste durch die andere ersetzen und würde damit die ganze Last unnützer, überhaupt nur einmal aufgetretener Spam-URLs loswerden. Super!!!

2. Ein Problem bleibt die Erkennung neuer Spam-URLs. Wir kennen das schon als "HTML-Problem" (siehe diverse Postings) und warten hier auf ein Spami-Update, das dieses Problem lösen sollte. Rätselhaft erscheint mir nur eins: Warum werden diverse URLs richtig erkannt und auf die all_urls, aber nicht auf die blacklist gesetzt? Beispiel:

LOG-Auszug:

<a href=3D"http://www.profitdetails.com/r/ccterminator">Click
Here:&nbsp;<=

Folgende URLs gefunden: http://www.profitdetails.com

Die Mail wurde als Spam bestimmt, die URL findet sich aber nicht auf der blacklist! Wieso?

3. Die Erkennung hat Probleme mit fragmentierten URLs. Dass der URLF Probleme hat mit Zeilenumbrüchen/Gleichheitszeichen kennen wir von früher. Offenbar ist das noch nicht gelöst. Auszug aus der all_urls:

aaabbb.dynasynhosting.net
aaabbb.dynasynhosting.ne=
aaabbb.dynasynhosting.n=
aaabbb=

4. Fragwürdige Erkennungen

LOG-Auszug:

<a href="http://bpbrchkwgtyfhn.104533571.943361.www.707413798.org"
http://bpbrchkwgtyfhn.104533571.943361. ... 413798.org

Folgende URLs gefunden:
http://www.707413798.org
bpbrchkwgtyfhn.104533571.943361.www.707413798.org

Beide URLs stehen in der all_urls. In diesem Fall sind auch beide auf der blacklist gelandet. Ob das sinnvoll ist? Der User muss hier nachbessern.

In diesem Zusammenhang müsste uns S3bast1an vielleicht nochmal genau sagen, was der Filter eigentlich als "URL" interpretiert. Nehmen wir z.B. den folgenden Fall:

LOG-Auszug:

<a href=3D"http://stigmata.RANDOM_WORD.clapeyron.blasterz.biz=
/creatives/patch/">

Folgende URLS gefunden:
stigmata.random_word.clapeyron.blasterz.biz=

In der all_urls erfasst: stigmata.random_word.clapeyron.blasterz.biz=

Auf der blacklist nicht angekommen. Aber! Diese Mail wurde ausgefiltert, und zwar weil die Kurzform blasterz.biz auf der blacklist steht. Es braucht also gar nicht den ganzen Rattenschwanz, um diese Mail auszufiltern. Teilstrings genügen - aber welche?

5. all_urls ist zu Testzwecken brauchbar, aber auf Dauer nicht notwendig. Wäre eine blosse Verdoppelung, weil ja alle gefundenen URLs auch in einer der anderen Listen stehen.

Weiterhin fröhliches Testen und Gruss von
Susi
Benutzeravatar
Susi
Spam-Terminator
Spam-Terminator
 
Beiträge: 95
Registriert: 30. Jul 2003, 19:08

Re: Frage zum neuen Beta-URL-Plugin

Beitragvon Florian » 20. Nov 2003, 18:46

Susi hat geschrieben:Ein Problem bleibt die Erkennung neuer Spam-URLs. Wir kennen das schon als "HTML-Problem" (siehe diverse Postings) und warten hier auf ein Spami-Update, das dieses Problem lösen sollte. Rätselhaft erscheint mir nur eins: Warum werden diverse URLs richtig erkannt und auf die all_urls, aber nicht auf die blacklist gesetzt?


Wenn ich S3bast1an und sein URL-Plugin richtig verstanden habe, dann funktioniert das so: Beim Filtern der Emails (im Log mit "3" markiert) werden URLs die noch nicht auf der Black- oder Whiteliste stehen erstmal in die all-Liste geschrieben. Dabei bekommt der Filter von Spami den gesamten Emailtext inklusive Header und html. Werden später die Emails im Trainingsbereich in Spam oder Nichtspam geschieden (im Log als "0" und "1" bezeichnet), landen die zugehörigen URLs jenachdem in der Black- oder Whitelist. Dabei bekommt das Plugin von Spami als Info aber nur den gekürzten Emailtext (ohne Header und ohne html). URLs, die auf dem Weg in den Trainigsbereich weggekürzt wurden bleiben einsam in der all-Liste stehen. Dein Beispiel ist wohl genau so ein Fall.


Susi hat geschrieben:3. Die Erkennung hat Probleme mit fragmentierten URLs. Dass der URLF Probleme hat mit Zeilenumbrüchen/Gleichheitszeichen kennen wir von früher. Offenbar ist das noch nicht gelöst.


Wenn ich mich nicht täusche, kommen die fragmentierten URLs alle aus dem Filterdurchgang ("3" in Log). Deswegen stehen sie auch nur in der all-Liste. In meiner Blackliste ist noch kein solcher Eintrag aufgetaucht.
Das wird erst mit der neuen Spamiversion ein Problem werden, wenn vom Trainingsbereich die vollständigen Emails an das Plugin weitergegeben werden. Kann Spami nicht beim Aufbereiten der Emails für den Traingsbereich alle html-Teile stehen lassen, aber trotzdem alle Trenn- und sonstigen Formatierungszeichen wegfiltern?
Dann ist allerdings die Frage, wie erkennt das Plugin beim Filtern eine URL im Original-Emailtext, die zufällig doch ein Trennzeichen enthält? Da muss wohl doch das Plugin selber ran und alle Formatierungszeichen aus den URLs entfernen.


Susi hat geschrieben:4. Fragwürdige Erkennungen

Folgende URLs gefunden:
http://www.707413798.org
bpbrchkwgtyfhn.104533571.943361.www.707413798.org

Beide URLs stehen in der all_urls. In diesem Fall sind auch beide auf der blacklist gelandet. Ob das sinnvoll ist? Der User muss hier nachbessern.


Ich glaube, das ist eine echte Herausforderung an die Programmierkunst! Woran erkennt ein Programm eine beliebige URL?...

Viele Grüße
Florian
Florian
Spam-Terminator
Spam-Terminator
 
Beiträge: 52
Registriert: 18. Nov 2003, 15:38

Re: Frage zum neuen Beta-URL-Plugin

Beitragvon Mondkind » 20. Nov 2003, 18:59

Erkennen kann man die eigentlich gut an Punkten, Länderkürzeln, am "www." und auch http://
Die URL darf kein Leerzeichen enthalten - von daher ist die Länge der Adresse an sich gut ableitbar. Wenn eine URL 3 oder mehr Punkte hat ( aaaaa.bbbb.cccc.de ) sollte das eigentlich auch schon auf Spam hindeuten. Wäre vielleicht als eine einstellbare Option ganz gut geeignet so eine Begrenzung.

Gruss
Roman
Benutzeravatar
Mondkind
 
Beiträge: 1597
Registriert: 23. Mai 2003, 00:14
Wohnort: Bremen

Re: Frage zum neuen Beta-URL-Plugin

Beitragvon Gast » 20. Nov 2003, 19:23

Mondkind hat geschrieben:Wenn eine URL 3 oder mehr Punkte hat ( aaaaa.bbbb.cccc.de ) sollte das eigentlich auch schon auf Spam hindeuten. Wäre vielleicht als eine einstellbare Option ganz gut geeignet so eine Begrenzung.


Drei Punkte sind vielleicht ein bisschen knapp bemessen. Was ist zum Beispiel mit http://saturn.jpl.nasa.gov (die NASA hat jede Menge Dreipunkt-URLs) oder http://www.esrin.esa.it ? Auch an Unis mit weit verzweigten Sub-Netzen sind Dreipunkt-URLs nicht selten. z.B. http://www.geol.uni-erlangen.de oder http://www.ldeo.columbia.edu oder bei den Briten: http://www.open.ac.uk

Aber ab 5 Punkten wie in Susis Beispiel hast Du wahrscheinlich recht.

Florian
Gast
 

Re: Frage zum neuen Beta-URL-Plugin

Beitragvon Mondkind » 20. Nov 2003, 22:28

Wie gesagt... es wäre als zusätzliche Option mit Einstellungsmöglichkeiten ideal. Mir würden 3 Punkte genügen... sollte natürlich definierbar sein. ;)

Gruss
Roman
Benutzeravatar
Mondkind
 
Beiträge: 1597
Registriert: 23. Mai 2003, 00:14
Wohnort: Bremen

Re: Frage zum neuen Beta-URL-Plugin

Beitragvon Susi » 21. Nov 2003, 00:53

Florian hat geschrieben:Ich glaube, das ist eine echte Herausforderung an die Programmierkunst! Woran erkennt ein Programm eine beliebige URL?...

Die Frage, was der URL-Filter als URL ansieht, hatte ich etwas anders gemeint: Nicht, wie der Filter (theoretisch) URLs erkennen könnte, sondern was tut er tatsächlich?

Was sucht sich der Filter als URL aus einer Mail heraus? Und umgekehrt: Wie muss ein Eintrag in der urlfilter_blacklist beschaffen sein, damit ihn der URL-Filter in einer Mail als Spam-URL erkennt?

Tests zeigen, dass der URL-Filter mit allem möglichen funktioniert, was nach der Regel nicht unbedingt als vollständige URL durchgeht. Beispiele:

   blacklist                  filtert

   naturalherbal.us     http://wkaswkcdtd@naturalherbal.us/zsxdc/patch/
   208.187.160.50      http://208.187.160.50/1663
   blasterz.biz             http://www.blasterz.biz

Mit den Teilstrings funktioniert das aber nicht immer. Beispiel:

                   203.1%39%37.2%30%34.%31%35%35     filtert nicht
   %320%33.%31%397.%32%30%34.%31%35%35

obwohl beide Zeichenfolgen auf den letzten 17 Stellen identisch sind.

Im übrigen wertet der Filter sogar Mailtos aus. cfventure.com filtert eine Mail aus, die mailto:helpmeout@cfventure.com?subject... enthält.

Daraus folgen gewisse Fragen im Umgang mit dem URL-Filter, z.B....

1. Welcher Teilstring reicht aus, um in einer längeren Zeichenfolge die Spam-URL zu erkennen? Das hat offenbar teils mit den Endungen (biz, com usw) zu tun, teils damit, durch welche Zeichen der Teilstring eingegrenzt wird ( \ / @ . usw.).

2. Können ultralange Einträge auf der blacklist nicht auf einen relevanten Kern reduziert werden? Könnte man nicht z.B. das www. prinzipiell weglassen, weil eine Kurzform wie herbal999.us immer auch die Langform http://www.herbal999.us erkennt (nicht umgekehrt). Wenn ja, dann würde eine Menge Dubletten entfallen. Spammer verwenden mal die Kurzform, mal die Langform. Reicht die Kurzform aus, dann müsste man hier nicht immer beide Formen, sondern nur noch die Kurzform auf die blacklist setzen. Die blacklist würde schlanker und sicher auch schneller abgearbeitet.

3. Andererseits: Steckt darin nicht auch eine Gefahr, wenn der URL-Filter beliebige Teilstrings als "URL" erkennen würde? Würde er dann nicht zu einem normalen Wortfilter? Womit dann der entscheidende Vorteil des URL-Filters, die 100% Eindeutigkeit des Spamkriteriums, verloren ginge?

In diesem Sinne würde ich also gern mal wissen, was der Filter als "URL" betrachtet und was nicht. Welche Regeln gelten hier?

Gruss von
Susi
 
Benutzeravatar
Susi
Spam-Terminator
Spam-Terminator
 
Beiträge: 95
Registriert: 30. Jul 2003, 19:08

Re: Frage zum neuen Beta-URL-Plugin

Beitragvon S3bast1an » 21. Nov 2003, 02:08

Susi hat geschrieben:Was sucht sich der Filter als URL aus einer Mail heraus? Und umgekehrt: Wie muss ein Eintrag in der urlfilter_blacklist beschaffen sein, damit ihn der URL-Filter in einer Mail als Spam-URL erkennt?

3. Andererseits: Steckt darin nicht auch eine Gefahr, wenn der URL-Filter beliebige Teilstrings als "URL" erkennen würde? Würde er dann nicht zu einem normalen Wortfilter? Womit dann der entscheidende Vorteil des URL-Filters, die 100% Eindeutigkeit des Spamkriteriums, verloren ginge?


Hey,

so langsam wirds unuebersichtlich .. ich beantworte mal einen Teil .. habe leider at the moment viel zu tun ...

Der Filter (Beta) funktioniert im Bereich "Erkennen" wie der Substringfilter .. er sucht einfach nach den URLs, so wie sie in den Listen stehen ... daher erkennt er unter Umstaenden auch "mailto:". Meines Erachtens ist das Risiko fuer eine Falscherkennung relativ gering

Das mit dem "mailto" betrifft sogar den kompletten Header .. wenn also dort ein @URL steht wirds auch erkannt wenn URL in der Liste steht.

Vielleicht sollte ich das wieder so machen wie beim alten URLFilter, der hat richtig nach URLs gesucht und dann verglichen ... mal sehen

2. Was wird erkannt:

Der Filter sucht zweistufig. Erstmal nach "http://" oder auch "https://" und schnappt sich alles dahinter bis zu einem Trennzeichen "/?SPACEundalleswasnichtineineDomaingehoert) ...

Zweitens nach "www." und dann wieder den Rest .. ja so macht er das ..

Gruss
S.
childintime[äht]gmx.de ;) ...
Tragt eure Mailkontodaten hier ein, damit für möglichst viele Provider Hilfe angeboten werden kann.
Bild
Benutzeravatar
S3bast1an
Forumjunkie
Forumjunkie
 
Plugin-Programmierer
 
Beiträge: 1432
Registriert: 3. Jul 2003, 18:14
Wohnort: Bärlin

Re: Frage zum neuen Beta-URL-Plugin

Beitragvon S3bast1an » 21. Nov 2003, 08:12

Susi hat geschrieben:
2. Können ultralange Einträge auf der blacklist nicht auf einen relevanten Kern reduziert werden? Könnte man nicht z.B. das www. prinzipiell weglassen, weil eine Kurzform wie herbal999.us immer auch die Langform http://www.herbal999.us erkennt (nicht umgekehrt). Wenn ja, dann würde eine Menge Dubletten entfallen. Spammer verwenden mal die Kurzform, mal die Langform. Reicht die Kurzform aus, dann müsste man hier nicht immer beide Formen, sondern nur noch die Kurzform auf die blacklist setzen. Die blacklist würde schlanker und sicher auch schneller abgearbeitet.


Das ueberleg ich mir mal .. dann durfte das nun aber auf keinen Fall wie der Substringfilter funktionieren ...

Gruss

S.

PS: Mal so vorab .. eigentlich habe ich nicht vor das mit den Listen so fortzufuehren. Vielmehr werde ich das ganze ueber kurz oder lang auf Bayessche Fuesse stellen, wobei mir schon was ganz geniales vorschwebt .. aber das verrat ich noch nicht :twisted:
childintime[äht]gmx.de ;) ...
Tragt eure Mailkontodaten hier ein, damit für möglichst viele Provider Hilfe angeboten werden kann.
Bild
Benutzeravatar
S3bast1an
Forumjunkie
Forumjunkie
 
Plugin-Programmierer
 
Beiträge: 1432
Registriert: 3. Jul 2003, 18:14
Wohnort: Bärlin

Re: Frage zum neuen Beta-URL-Plugin

Beitragvon S3bast1an » 21. Nov 2003, 08:19

Florian hat geschrieben:
Susi hat geschrieben:Ein Problem bleibt die Erkennung neuer Spam-URLs. Wir kennen das schon als "HTML-Problem" (siehe diverse Postings) und warten hier auf ein Spami-Update, das dieses Problem lösen sollte. Rätselhaft erscheint mir nur eins: Warum werden diverse URLs richtig erkannt und auf die all_urls, aber nicht auf die blacklist gesetzt?


Wenn ich S3bast1an und sein URL-Plugin richtig verstanden habe, dann funktioniert das so: Beim Filtern der Emails (im Log mit "3" markiert) werden URLs die noch nicht auf der Black- oder Whiteliste stehen erstmal in die all-Liste geschrieben. Dabei bekommt der Filter von Spami den gesamten Emailtext inklusive Header und html. Werden später die Emails im Trainingsbereich in Spam oder Nichtspam geschieden (im Log als "0" und "1" bezeichnet), landen die zugehörigen URLs jenachdem in der Black- oder Whitelist. Dabei bekommt das Plugin von Spami als Info aber nur den gekürzten Emailtext (ohne Header und ohne html). URLs, die auf dem Weg in den Trainigsbereich weggekürzt wurden bleiben einsam in der all-Liste stehen. Dein Beispiel ist wohl genau so ein Fall.


Basser haette man es nicht beschreiben koennen. Genau so ist es ...

Florian hat geschrieben:
Susi hat geschrieben:3. Die Erkennung hat Probleme mit fragmentierten URLs. Dass der URLF Probleme hat mit Zeilenumbrüchen/Gleichheitszeichen kennen wir von früher. Offenbar ist das noch nicht gelöst.


Wenn ich mich nicht täusche, kommen die fragmentierten URLs alle aus dem Filterdurchgang ("3" in Log). Deswegen stehen sie auch nur in der all-Liste. In meiner Blackliste ist noch kein solcher Eintrag aufgetaucht.
Das wird erst mit der neuen Spamiversion ein Problem werden, wenn vom Trainingsbereich die vollständigen Emails an das Plugin weitergegeben werden. Kann Spami nicht beim Aufbereiten der Emails für den Traingsbereich alle html-Teile stehen lassen, aber trotzdem alle Trenn- und sonstigen Formatierungszeichen wegfiltern?
Dann ist allerdings die Frage, wie erkennt das Plugin beim Filtern eine URL im Original-Emailtext, die zufällig doch ein Trennzeichen enthält? Da muss wohl doch das Plugin selber ran und alle Formatierungszeichen aus den URLs entfernen.


Basser haette man es nicht beschreiben koennen. Genau so ist es ... *wiederhol* .. wenn der Spami soweit ist werde ich mir das mit den Trennzeichen genauer ansehen .. ist nicht ganz trivial .. aber es wird werden ...

Susi hat geschrieben:4. Fragwürdige Erkennungen

Folgende URLs gefunden:
http://www.707413798.org
bpbrchkwgtyfhn.104533571.943361.www.707413798.org

Beide URLs stehen in der all_urls. In diesem Fall sind auch beide auf der blacklist gelandet. Ob das sinnvoll ist? Der User muss hier nachbessern.



Also nun aber ... das ist doch total piepe :)
Hier muss eigentlich auch nicht der Usernachhelfen .. wenns Spamrelevant ist (der Spamer schickt sowas immer wieder): Super, dann muss sie drinbleiben. Wenn nicht kommt sie auch nicht in die success-Liste und wird ueber kurz oder lang geloescht.
Ich denke solche Sachen sind echt die absolute Ausnahme ... es liegt an de Art der Erkennung .. der Filter sucht sich "www." und wenn das irgendwomittendrin ist wirds rausgeholt ...

Gruss
S.
childintime[äht]gmx.de ;) ...
Tragt eure Mailkontodaten hier ein, damit für möglichst viele Provider Hilfe angeboten werden kann.
Bild
Benutzeravatar
S3bast1an
Forumjunkie
Forumjunkie
 
Plugin-Programmierer
 
Beiträge: 1432
Registriert: 3. Jul 2003, 18:14
Wohnort: Bärlin

Nächste

Zurück zu Plugins: Hilfe

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

 industrious-southeast