Frage zum neuen Beta-URL-Plugin

Antwort erstellen

Bestätigungscode
Gib den Code genau so ein, wie du ihn siehst; Groß- und Kleinschreibung wird nicht unterschieden.
Smilies
:D :) :( :o :shock: :? 8) :lol: :x :P :oops: :cry: :evil: :twisted: :roll: :wink: :!: :?: :idea: :arrow: :| :mrgreen:
BBCode ist eingeschaltet
[img] ist eingeschaltet
[flash] ist ausgeschaltet
[url] ist eingeschaltet
Smilies sind eingeschaltet
Die letzten Beiträge des Themas
   

Ansicht erweitern Die letzten Beiträge des Themas: Frage zum neuen Beta-URL-Plugin

Beitrag von S3bast1an » 9. Dez 2003, 22:57

So ... die Beta 10 ist jetzt raus .. die Liste des Filters werden nun umfangreich gegeneinander bereinigt ... :) .. deshalb: Vorher ne Sicherheitskopie machen !!!
Gruss
S.

Beitrag von S3bast1an » 8. Dez 2003, 23:18

michel hat geschrieben:
S3bast1an hat geschrieben:na vielleicht einfach mal die Beta_10 abwarten ..

Wieviele Beta-Versionen gibt es eigentlich noch? :D :D :D


Kann ich doch nix fuer wenn die Betatester andauernd neue Vorschläge machen :lol: :lol: :lol:
Ne klar ... aber bisher war jede Beta ne Verbesserung :)

Gruss
S.

Beitrag von michel » 8. Dez 2003, 21:34

S3bast1an hat geschrieben:na vielleicht einfach mal die Beta_10 abwarten ..

Wieviele Beta-Versionen gibt es eigentlich noch? :D :D :D

CU
Michel

Beitrag von S3bast1an » 8. Dez 2003, 19:43

So ... die Beta 10 ist jetzt raus .. die Liste des Filters werden nun umfangreich gegeneinander bereinigt ... :) .. deshalb: Vorher ne Sicherheitskopie machen !!!
Gruss
S.

Beitrag von Tom » 8. Dez 2003, 18:19

Hallo,

ich hab ein Problem: die Beta09 filtert nix mehr raus :shock: . Auch im Log-File wird nichts mehr eingetragen.
Ich habe an den Einstellungen nichts verändert. Der Filter steht bei mir ganz am Anfang. Als S3bast1an die Version geschickt hat, habe ich lediglich die bestehende newurlfilter.dll überschrieben.
Hat sonst noch jemand sowas festgestellt, oder bin ich damit allein?

Gruß
Tom

Beitrag von Susi » 6. Dez 2003, 18:17

S3bast1an hat geschrieben:ja klar .. kannste auch immer noch machen, aber das improlearn ist ja ganz unabhaengig vom Filter und das kennt nach wie vor keine sub- und topdomains sondern haut die einfach alle rein .. aber der Filter selbst tut dies beim lernen nun NICHT mehr, oder?

Ja, das kann ich bislang bestätigen. Aber dass sich das nun mit improlearn in die Quere kommt, ist schade. Damit fallen wir hinter einen Stand zurück, der mit improlearn bereits erreicht war. Solange die URL-Erkennung aus HTML nicht möglich ist, wollten wir uns doch mit improlearn behelfen, um wirklich alles rauszuholen. :(

Bescheidene Frage: Könnte man nicht improlearn ein wenig abändern? Man müßte ihm sagen: Haue nicht alles rein, sondern prüfe zuvor, ob die URL eine Topdomain enthält, die bereits auf der blacklist steht. Wenn ja, dann setzte diese URL nicht auf die blacklist.

Vielleicht liesse sich das erreichen, indem man txtminustxt.exe verbessert. Jetzt entfernt es ja nur solche Zeilen in Datei A (file to substract from), denen eine Zeile in Datei B (file to be substracted) 1:1 entspricht. Hier müsste die Anweisung lauten: Entferne alle Zeilen in A, denen eine Zeile in B entspricht oder in denen eine Zeile in B als Substring enthalten ist. So würden irgendwie diese Rattenschwänze nachträglich aus der blacklist wieder entfernt oder kämen gar nicht erst rein.

Gruss von
Susi
 

Beitrag von S3bast1an » 6. Dez 2003, 15:49

Tom hat geschrieben:Hallo,

jetzt muss ich doch noch mit einem etwas älteren Zwischenthema kommen. :roll:
Also seit irgendwo um die Beta 7 rum, habe ich wieder alle Mails, die im Papierkorb auftauchen auch im Trainingsbereich. Scheint also doch an dem new-URL gelegen zu haben.
Wollte das nur kurz loswerden :oops:

Danke
Tom


is ja komisch .. vielleicht durch die Abstuerze ....

Gruss
S.

Beitrag von Tom » 6. Dez 2003, 13:20

Hallo,

jetzt muss ich doch noch mit einem etwas älteren Zwischenthema kommen. :roll:
Also seit irgendwo um die Beta 7 rum, habe ich wieder alle Mails, die im Papierkorb auftauchen auch im Trainingsbereich. Scheint also doch an dem new-URL gelegen zu haben.
Wollte das nur kurz loswerden :oops:

Danke
Tom

Beitrag von S3bast1an » 6. Dez 2003, 08:21

Susi hat geschrieben:
S3bast1an hat geschrieben:ich setze tripod.com.br auf die Blacklist ... und sende mir ne Mail mit: x03.tripod.com.br ...

Ja, ganz d'accord, was die Umstände betrifft. Aber nicht im Ergebnis. :(

Meine letzte Version ist die Beta 9, eingegangen Donnerstag, 4. Dez 2003 19:31. Wenn Du danach noch was verändert hast, dann sende mir's doch bitte zu.


is schon richtig so .. eine Beta 10 kommt ja bald :)

Susi hat geschrieben:
S3bast1an hat geschrieben:PS: mit dem improlearn.bat geht natuerlich nicht ... aber der Filter an sich laeuft bei mir

Versteh ich nicht. Soll man denn improlearn jetzt nicht mehr ausführen? Hast Du in Deiner letzten Mail nicht gesagt. Also, der Ablauf ist doch: 1. Mails abrufen -> 2. Trainieren -> 3. improlearn ausführen - oder? Danach schaue ich mir die blacklist an, und da sind sie alle wieder, die Rattenschwänze... :twisted:


ja klar .. kannste auch immer noch machen, aber das improlearn ist ja ganz unabhaengig vom Filter und das kennt nach wie vor keine sub- und topdomains sondern haut die einfach alle rein .. aber der Filter selbst tut dies beim lernen nun NICHT mehr, oder?

Susi hat geschrieben:
S3bast1an hat geschrieben:PS2: Das mit der ignorelist stimmt, das ist nicht so einfahc zu loesen, da muss mehr her .. hatte ich zu kurz gedacht. Ich denke ich werde eine Funktion einbauen, die die Listen von den URLs der ignorelist reinigt ...

Bis dahin muss man eben das Kürzen auf der ignorelist unterlassen. Sind ja längst nicht so viele Varianten, wie auf der blacklist landen.


... ich glaub ich mal mir das mal auf, das ist echt nicht sooo einfach was wann wodurch bereinigt werden muss ... also die Frundfunktion ist in meiner Beta10 drin, derzeit wird die Blacklist von den den ignore-URLs gereinigt, wobei ebay.de auf der ignore auch cgi.ebay.de aus der Blacklist loescht .. ich muss das nochmal durchdenken :(

Susi hat geschrieben:
S3bast1an hat geschrieben:PS3: Wird die all_urls.txt noch gebraucht .. sonst deaktivier ich das mal ...

Auf der all_urls finde ich jetzt noch die URLs aus Mails, die durch alle Filter durchgeschlüpft sind. Pro Tag ein bis zwei Fälle. Das sind Mails, die in der Textansicht z.B. vollkommen leer sind oder einen ganz kurzen, unverfänglichen Text haben. Manchmal steht auch eine URL drin ohne http:// davor usw. - Vorschlag: Lass die all_urls doch in der Betaphase einstweilen noch drin. Im endgültigen Release wäre sie wohl verzichtbar - was meinen die andern Tester?


mit improlearn.bat zusammen duerfte es eigentlich klappen, bis auf siehe oben, aber dass manuelle sortieren kann die allurls auch nicht ersetzen :)

Gruss erstmal
S.

Beitrag von Susi » 6. Dez 2003, 02:16

S3bast1an hat geschrieben:ich setze tripod.com.br auf die Blacklist ... und sende mir ne Mail mit: x03.tripod.com.br ...

Ja, ganz d'accord, was die Umstände betrifft. Aber nicht im Ergebnis. :(

Meine letzte Version ist die Beta 9, eingegangen Donnerstag, 4. Dez 2003 19:31. Wenn Du danach noch was verändert hast, dann sende mir's doch bitte zu.

S3bast1an hat geschrieben:PS: mit dem improlearn.bat geht natuerlich nicht ... aber der Filter an sich laeuft bei mir

Versteh ich nicht. Soll man denn improlearn jetzt nicht mehr ausführen? Hast Du in Deiner letzten Mail nicht gesagt. Also, der Ablauf ist doch: 1. Mails abrufen -> 2. Trainieren -> 3. improlearn ausführen - oder? Danach schaue ich mir die blacklist an, und da sind sie alle wieder, die Rattenschwänze... :twisted:

S3bast1an hat geschrieben:PS2: Das mit der ignorelist stimmt, das ist nicht so einfahc zu loesen, da muss mehr her .. hatte ich zu kurz gedacht. Ich denke ich werde eine Funktion einbauen, die die Listen von den URLs der ignorelist reinigt ...

Bis dahin muss man eben das Kürzen auf der ignorelist unterlassen. Sind ja längst nicht so viele Varianten, wie auf der blacklist landen.

S3bast1an hat geschrieben:PS3: Wird die all_urls.txt noch gebraucht .. sonst deaktivier ich das mal ...

Auf der all_urls finde ich jetzt noch die URLs aus Mails, die durch alle Filter durchgeschlüpft sind. Pro Tag ein bis zwei Fälle. Das sind Mails, die in der Textansicht z.B. vollkommen leer sind oder einen ganz kurzen, unverfänglichen Text haben. Manchmal steht auch eine URL drin ohne http:// davor usw. - Vorschlag: Lass die all_urls doch in der Betaphase einstweilen noch drin. Im endgültigen Release wäre sie wohl verzichtbar - was meinen die andern Tester?

Gruss von
Susi
 

Beitrag von S3bast1an » 5. Dez 2003, 21:39

Susi hat geschrieben:
S3bast1an hat geschrieben:Deine Vorstellungen sind umgesetzt. Es werden keine Subdomains gelisteter top-domains mehr zu Listen hinzugefuegt.

Sehr schön! Bei der Beta 9 kann ich das aber noch nicht erkennen:


Mhmm .. habs nochmal probiert .. klappt bei mir einwandfrei :(

ich setze

tripod.com.br

auf die Blacklist ... und sende mir ne Mail mit:

x03.tripod.com.br
x04.tripod.com.br

Die Mail wird als Spam erkannt und zudem werden beim lernen keine URLs hinzugefuegt .. :(

Gruss
S.

PS: mit dem improlearn.bat geht natuerlich nicht ... aber der Filter an sich laeuft bei mir ... kann ihn ja sonst nochmal mailen ..

PS2: Das mit der ignorelist stimmt, das ist nicht so einfahc zu loesen, da muss mehr her .. hatte ich zu kurz gedacht. Ich denke ich werde eine Funktion einbauen, die die Listen von den URLs der ignorelist reinigt ...

PS3: Wird die all_urls.txt noch gebraucht .. sonst deaktivier ich das mal ...

Beitrag von Susi » 5. Dez 2003, 14:49

S3bast1an hat geschrieben:Deine Vorstellungen sind umgesetzt. Es werden keine Subdomains gelisteter top-domains mehr zu Listen hinzugefuegt.

Sehr schön! Bei der Beta 9 kann ich das aber noch nicht erkennen:

Fall 1 Auf der blacklist stehen mad-soft.info und www.mad-soft.info. Eine Mail geht ein mit mehreren <a>-tags wie <a href=3D"http://kite.mad-soft.info/adv142/??*rwzegikyb">

Gefunden und auf die blacklist werden gesetzt:

kite.mad-soft.info
parolee.mad-soft.info
heterosexual.mad-soft.info
aitken.mad-soft.info
riverside.mad-soft.info

Wäre nach der letzten Änderung eigentlich nicht zu erwarten. Danach sollten diese Varianten nicht auf die blacklist kommen.

Fall 2 Auf der blacklist stehen: inkzplace.biz, bargain-printing-spot.com, evoclicks.com und diverse andere Domains, die alle in den Mails eines Tintenverkäufers auftreten. Die Mails enthalten viele Varianten wie...

http://bargain-printing-spot.com.inkzplace.biz/neb.html
http://evoclicks.com.inkzplace.biz/s20.html

Zum Ausfiltern reicht inkzplace.biz. Es werden aber auch hier immer wieder diese langen, zusammengesetzten URLs auf die blacklist gesetzt, wie sie in den Mails vorkommen.

Fall 3 Auf der blacklist steht medsforcheap.biz.
In der Mail mehrfach enthalten sind <a>-tags wie...

<a href=3D"http://meetinghouse.medsforcheap.biz/aff1/??*stockholder" style=3D"text-decoration: none">

Gefunden und auf die blacklist werden immer wieder neu gesetzt:

meetinghouse.medsforcheap.biz
beseech.medsforcheap.biz
napoleonic.medsforcheap.biz
dyad.medsforcheap.biz
drool.medsforcheap.biz
clock.medsforcheap.biz
chime.medsforcheap.biz
spud.medsforcheap.biz
crowbait.medsforcheap.biz
sushi.medsforcheap.biz
devon.medsforcheap.biz usw...

Fall 4 Bei den gekürzten Formen auf der ignorelist stelle ich folgendes fest:

Auf der ignorelist steht barnesandnoble.com. Das hindert den Filter nicht, immer wieder erneut search.barnesandnoble.com auf die blacklist zu setzen (das ich jedesmal lösche).

Gruss von
Susi
 

Beitrag von S3bast1an » 4. Dez 2003, 18:55

Susi hat geschrieben:Im übrigen: Würde man den Filter nach meiner Vorstellung verändern, hätte das für einen Anwender, der keine Kürzungen vornimmt, überhaupt keine Auswirkung. Der Filter würde sich für ihn so verhalten wie bisher.


Deine Vorstellungen sind umgesetzt :)
Es werden keine Subdomains gelisteter top-domains mehr zu Listen hinzugefuegt.

Eine Verbesserung will ich noch vornehmen, naemlich, dass wenn die topdomain auf der ignorelist steht, dann doch wieder alle Subdomains gelernt werden ... wenn also yahoo.com auf der Blacklist steht wandert sie (topdomain) bei der ersten Non-Spam mit xxx.yahoo.com auf die ignorelist, dass heisst, dass yyy.yahoo.com nicht unbedingt Spam oder non-Spam ist und ergo gelernt werden muss. So ist ausgeschlossen, dass wenn ein Spammer warum auch immer mal auf http://yahoo.com verweist fuer immer und ewig alle subdomains aus dem Rennen sind und der Filter an Schlagkraft verliert.

Gruss
S.

PS: Beta 09 geht heut abend noch an die Tester raus ...

Beitrag von Susi » 4. Dez 2003, 02:01

Florian hat geschrieben:Das Kürzen ist wohl nicht ganz ungefährlich. Ich bekomme recht viel Spam mit der URL rd.yahoo.com. Das steht in meiner Blackliste so drin.

Ja, Florian, das sehe ich auch so. Und rd.yahoo.com würde ich auch immer ungekürzt lassen. Darum bin ich auch skeptisch, ob der Filter das automatisch kürzen könnte. Meine Vorstellung - siehe oben - sieht daher vor, dass der Anwender diese Kürzung in der blacklist selber vornimmt, wo er es für sinnvoll und akzeptabel hält. Ich hab ja nun schon reichlich Beispiele geliefert, wo man solche Kürzungen vornehmen könnte. Rekordhalter auf der Reisekaefer-blacklist ist justdoing.biz in 70 (!!!) Varianten...

Im übrigen: Würde man den Filter nach meiner Vorstellung verändern, hätte das für einen Anwender, der keine Kürzungen vornimmt, überhaupt keine Auswirkung. Der Filter würde sich für ihn so verhalten wie bisher.

Gruss von
Susi

Beitrag von Florian » 3. Dez 2003, 22:01

Susi hat geschrieben:Wenn man den Eintrag in der blacklist kürzt auf blasterz.biz, dann hat der Filter bei folgenden Prüfungen kein Problem...


Das Kürzen ist wohl nicht ganz ungefährlich. Ich bekomme recht viel Spam mit der URL rd.yahoo.com. Das steht in meiner Blackliste so drin. Ich bekomme aber auch hin und wieder nicht-Spam von Leuten, die einen Yahoo-Account haben und in diesen Mails steht dann eine URL mit xxx.yahoo.com. Wenn das Plugin also die URL auf yahoo.com verkürzen würde, würde non-Spam im Müll landen, und das ist ziemlich das schlimmste, was einem Spamfilter passieren kann. Ich weiss nicht, wie häufig sowas vorkommen kann. Aber so wie das Plugin jetzt arbeitet, scheint es mir sicherer.
Florian

Nach oben

 industrious-southeast