Das grosse RegEx Alphabet

Hier sollen Ideen und Anregungen für den neuen Regelfilter gesammelt werden.

Das grosse RegEx Alphabet

Beitragvon Quellcore » 15. Mär 2010, 05:15

Guten Tag meine sehr verehrten Freunde und Freundinnen der Regulären Ausdrücke.
Viele RegEx Regeln ließen sich relativ schnell zusammenklicken, wenn man einmal ein Grundalphabet für alle Buchstaben (bzw. Zeichen aller Art) und deren Maskierungen erstellt hat.
Ein Art Nachschlagewerk im Stile der Langenscheidt Woerterbuecher, "Buchstabe <-> RexEx"

Code: Alles auswählen
a -> (a|@|/\\|4)
b -> [b8]
c -> [c\(\{\[]
d ->
e -> [e3€]
f ->
g ->
h -> (h|\]\[)
i -> [il1!:;'\|]
j ->
k ->
l -> [li17!\|]
m ->
n ->
o -> [oöqd]
p -> [pqg]
q -> [pqg9]
r ->
s -> [sz]
t ->
u ->
w ->
x ->
y ->
z -> [zs]


...und natürlich auch mein Favorit
Code: Alles auswählen
SPACE bzw. Leer-/Füll-/Trennzeichen -> [\W\s_]


Was haltet ihr davon, diese Liste mal zu komplettieren :?:

Gruß,
Quellcore
Zuletzt geändert von Quellcore am 16. Apr 2010, 22:14, insgesamt 4-mal geändert.
Intel Core i7-2700K Processor (@ 45*100 = 4500 MHz) on ASRock P67 Extreme4 Gen3 with 16GB G.SKILL Ripjaws X Series (4 x 4GB) 240-Pin DDR3 SDRAM DDR3 2133 (PC3 17000) Model F3-17000CL11Q-16GBXL (Timings 10-10-10-28 2T @ 1866 MHz)
SSD Samsung 128GB 2.5-inch SSD 830 Series (Desktop)
HDD WD Caviar® SE16 640 GB, SATA2, 16 MB Cache, 7200 RPM
ATI Radeon HD 5850 ASUS EAH5850/G/2DIS/1GD5

Win 7 Ultimate 64-Bit / ESET NOD32 Antivirus 5.0 / Firefox 12.0 / Thunderbird 12.0
Spamihilator 1.0.0
Benutzeravatar
Quellcore
Assistent
Assistent
 
Beta-Tester
 
Beiträge: 1683
Registriert: 8. Mai 2004, 14:03
Wohnort: Long Island / USA

Re: Das grosse RegEx Alphabet

Beitragvon Chactory » 15. Mär 2010, 10:28

Hallo Quellcore!

Gute Idee, aber nicht ganz unkritisch, denn bei manchen Suchbegriffen erleidet man mit falsch-positiven Filterungen Schiffbruch, wenn man alle möglichen Varianten verwendet ...

Gruß, Chactory
Vostro 3450, Intel Core i5 2410M 2,3 GHz, 4 GB DDR3 SDRAM 1333 MHz, Windows 7 Pro 64 Bit SP1
Online-Hilfe: «DE» − Chactory's Tipps: «DE» − Anbuva's FAQ: «DE» und «EN» − Bob Loefflers FAQ: «EN»

Bild
Benutzeravatar
Chactory
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8627
Registriert: 10. Jan 2004, 00:19
Wohnort: Kiel (D)

Re: Das grosse RegEx Alphabet

Beitragvon Andreas_Z » 15. Mär 2010, 18:14

Hallo Quellcore!

eine gute Idee. Leider kann ich nicht viel Beisteuern. Meine RegExp-Erfahrungen sind nicht so groß.

Gruß
Andreas_Z
Core i7 3,4 GHz, 8 GB RAM, Win7 64bit SP1, GDATA Bussiness 11.0
Exchange-Server 2003, VM mit WinXP Pro SP3.
Spami-Online-Hilfe, Spami-FAQ, Anbuva's FAQ
Benutzeravatar
Andreas_Z
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 4275
Registriert: 6. Nov 2003, 09:10
Wohnort: Schwielowsee, Germany

Re: Das grosse RegEx Alphabet

Beitragvon Quellcore » 16. Mär 2010, 04:38

Chactory hat geschrieben:...aber nicht ganz unkritisch, denn bei manchen Suchbegriffen erleidet man mit falsch-positiven Filterungen Schiffbruch, wenn man alle möglichen Varianten verwendet ...

Das sollte man natürlich immer im Hinterkopf behalten, definitiv eine Gefahr jeder "RegEx(p)?" :lol:
In vielen Fällen kann man aber durch Gegenmaßnahmen auch wiederum viele Probleme verhindern, wenn man etwas tiefer in der RegEx-Trickkiste greift.
Andreas_Z hat geschrieben:Leider kann ich nicht viel Beisteuern. Meine RegExp-Erfahrungen sind nicht so groß.

Erfahrung brauchst Du doch auch gar nicht, vielleicht könntest Du ja mal in Deinem Spami-Papierkorb stöbern und ein paar Buchstabenverwechslungen bzw. Vertauschungen heraussuchen.
Beim "b" faellt mir gerade nichts ein, fürs "c" wiederum gibt doch einige, ich habe den Eroeffnungspost mal dementsprechend geupdated.

Gruss,
Quellcore
Intel Core i7-2700K Processor (@ 45*100 = 4500 MHz) on ASRock P67 Extreme4 Gen3 with 16GB G.SKILL Ripjaws X Series (4 x 4GB) 240-Pin DDR3 SDRAM DDR3 2133 (PC3 17000) Model F3-17000CL11Q-16GBXL (Timings 10-10-10-28 2T @ 1866 MHz)
SSD Samsung 128GB 2.5-inch SSD 830 Series (Desktop)
HDD WD Caviar® SE16 640 GB, SATA2, 16 MB Cache, 7200 RPM
ATI Radeon HD 5850 ASUS EAH5850/G/2DIS/1GD5

Win 7 Ultimate 64-Bit / ESET NOD32 Antivirus 5.0 / Firefox 12.0 / Thunderbird 12.0
Spamihilator 1.0.0
Benutzeravatar
Quellcore
Assistent
Assistent
 
Beta-Tester
 
Beiträge: 1683
Registriert: 8. Mai 2004, 14:03
Wohnort: Long Island / USA

Re: Das grosse RegEx Alphabet

Beitragvon anbuva » 16. Mär 2010, 18:43

Hallo Quellcore!

da ich ja nun auch kein großer Experte, dafür aber interessierter User bin, halte ich die Liste trotz Chactorys nachvollziehbarer Bedenken doch für hilfreich. Die Gefahr einer Fehlfilterung ist ja (fast) immer gegeben und die Praxis wird es ja zeigen :wink:

Gruß
anbuva
Benutzeravatar
anbuva
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8403
Registriert: 1. Sep 2004, 13:58
Wohnort: Zuhause

Re: Das grosse RegEx Alphabet

Beitragvon Chactory » 16. Mär 2010, 22:11

Hallo zusammen!

Nur zu! Ich wollte Eure Euphorie auf keinen Fall bremsen! :)

Hmm ... für b vielleicht noch 8, für e €, für i :, für l 7 oder |, für s auch z und umgekehrt, für u auch v ...

Gruß, Chactory
Vostro 3450, Intel Core i5 2410M 2,3 GHz, 4 GB DDR3 SDRAM 1333 MHz, Windows 7 Pro 64 Bit SP1
Online-Hilfe: «DE» − Chactory's Tipps: «DE» − Anbuva's FAQ: «DE» und «EN» − Bob Loefflers FAQ: «EN»

Bild
Benutzeravatar
Chactory
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8627
Registriert: 10. Jan 2004, 00:19
Wohnort: Kiel (D)

Re: Das grosse RegEx Alphabet

Beitragvon Quellcore » 16. Mär 2010, 23:46

Hallo Chactory!
Danke für Dein Input, wird sofort eingetragen.

Im übrigen habe ich Deinen Kommentar zur Gefahr der False-Positives durchaus ernst genommen, manchmal ist weniger mehr, und man sollte nicht immer versuchen, alle Varianten zu erkennen.
Ich habe in einem anderen Thread ja auch schon mal erläutert, dass ich mich auch lieber von der spezifischen Seite annähere und die RegEx dann ggf. verallgemeinere/unschärfer mache, wenn es dann die Situation erfordert.
Das hat bei mir aber auch schon zu Frustration geführt:
Da bastelt man so vor sich hin, um dann beim nächsten Abholvorgang die Früchte seiner frisch erstellten RegEx bestaunen zu dürfen, muss dann aber leider feststellen, das sich die Chaoten wieder eine andere Abart haben einfallen lassen, so dass die frisch erstellte RegeX so nicht greift und wieder angepasst werden muss.


Gruß
Quellcore
Intel Core i7-2700K Processor (@ 45*100 = 4500 MHz) on ASRock P67 Extreme4 Gen3 with 16GB G.SKILL Ripjaws X Series (4 x 4GB) 240-Pin DDR3 SDRAM DDR3 2133 (PC3 17000) Model F3-17000CL11Q-16GBXL (Timings 10-10-10-28 2T @ 1866 MHz)
SSD Samsung 128GB 2.5-inch SSD 830 Series (Desktop)
HDD WD Caviar® SE16 640 GB, SATA2, 16 MB Cache, 7200 RPM
ATI Radeon HD 5850 ASUS EAH5850/G/2DIS/1GD5

Win 7 Ultimate 64-Bit / ESET NOD32 Antivirus 5.0 / Firefox 12.0 / Thunderbird 12.0
Spamihilator 1.0.0
Benutzeravatar
Quellcore
Assistent
Assistent
 
Beta-Tester
 
Beiträge: 1683
Registriert: 8. Mai 2004, 14:03
Wohnort: Long Island / USA

Re: Das grosse RegEx Alphabet

Beitragvon Chactory » 17. Mär 2010, 00:19

Hallo Quellcore!

Vielen Dank! :)

Gruß, Chactory
Vostro 3450, Intel Core i5 2410M 2,3 GHz, 4 GB DDR3 SDRAM 1333 MHz, Windows 7 Pro 64 Bit SP1
Online-Hilfe: «DE» − Chactory's Tipps: «DE» − Anbuva's FAQ: «DE» und «EN» − Bob Loefflers FAQ: «EN»

Bild
Benutzeravatar
Chactory
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8627
Registriert: 10. Jan 2004, 00:19
Wohnort: Kiel (D)

Re: Das grosse RegEx Alphabet

Beitragvon Andreas_Z » 17. Mär 2010, 10:30

Hallo Quellcore!

Quellcore hat geschrieben:Erfahrung brauchst Du doch auch gar nicht, vielleicht könntest Du ja mal in Deinem Spami-Papierkorb stöbern und ein paar Buchstabenverwechslungen bzw. Vertauschungen heraussuchen.
Beim "b" faellt mir gerade nichts ein, fürs "c" wiederum gibt doch einige, ich habe den Eroeffnungspost mal dementsprechend geupdated.

Das mach ich glatt. Wenn ich was finde, werde ich es posten.


Gruß
Andreas_Z
Core i7 3,4 GHz, 8 GB RAM, Win7 64bit SP1, GDATA Bussiness 11.0
Exchange-Server 2003, VM mit WinXP Pro SP3.
Spami-Online-Hilfe, Spami-FAQ, Anbuva's FAQ
Benutzeravatar
Andreas_Z
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 4275
Registriert: 6. Nov 2003, 09:10
Wohnort: Schwielowsee, Germany

Re: Das grosse RegEx Alphabet

Beitragvon Chactory » 17. Mär 2010, 10:39

Hallo zusammen!

Interessant an dieser Übersicht ist übrigens auch, daß bestimmte Buchstaben gerade nicht variiert werden können.

Gruß, Chactory
Vostro 3450, Intel Core i5 2410M 2,3 GHz, 4 GB DDR3 SDRAM 1333 MHz, Windows 7 Pro 64 Bit SP1
Online-Hilfe: «DE» − Chactory's Tipps: «DE» − Anbuva's FAQ: «DE» und «EN» − Bob Loefflers FAQ: «EN»

Bild
Benutzeravatar
Chactory
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8627
Registriert: 10. Jan 2004, 00:19
Wohnort: Kiel (D)

Re: Das grosse RegEx Alphabet

Beitragvon Andreas_Z » 16. Apr 2010, 07:51

Hallo Quellcore!

So.. ist schwer was zu finden. Solche verunstaltungen werden immer seltener bei mir. Ich habe aber gefunden:

Code: Alles auswählen
l -> I


aber vermutlich hast Du das schon drin nur eben vertippt. Bei Dir steht statt eines großen "i" ein kleines "L". Dann wäre da noch:
Code: Alles auswählen
o -> 0 eventuell auch(OöÖQD)


Gruß
Andreas_Z
Core i7 3,4 GHz, 8 GB RAM, Win7 64bit SP1, GDATA Bussiness 11.0
Exchange-Server 2003, VM mit WinXP Pro SP3.
Spami-Online-Hilfe, Spami-FAQ, Anbuva's FAQ
Benutzeravatar
Andreas_Z
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 4275
Registriert: 6. Nov 2003, 09:10
Wohnort: Schwielowsee, Germany

Re: Das grosse RegEx Alphabet

Beitragvon Quellcore » 16. Apr 2010, 22:13

Hi Andreas_Z,

Vielen Dank erst einmal für das Stöbern im Papierkorb.
So.. ist schwer was zu finden. Solche verunstaltungen werden immer seltener bei mir.

Interessanterweise scheint das bei mir auch so, diese Masche ist wohl nicht mehr aktuell, oder besser gesagt zur Zeit.
Ich habe aber gefunden:
Code: Alles auswählen
l -> I

aber vermutlich hast Du das schon drin nur eben vertippt. Bei Dir steht statt eines großen "i" ein kleines "L".

Grundsätzlich ist die Boost RegEx-DLL in Spamihilator unempfindlich in Bezug auf die Groß- und Kleinschreibung ("Case Insensitive").
Das das kleine "i" schon drin ist, haben wir diesen Fall also abgedeckt.
Das kleine "l" (wie in "Ball") taucht nur einmal in der Auflistung auf, beim scheinbar zweiten Mal ist es aber eine Eins.
Dann wäre da noch:
Code: Alles auswählen
o -> 0 eventuell auch(OöÖQD)


Guter Ansatz, beim Wegstreichen der Groß- und Kleinschreibung bleibt dann noch:
Für "o" wie in Otto kann man folgende Alternativen finden:
Null "0"
"ö" wie in "hören"
"q" wie in "quellcore"
"d" wie in "David"

Summa Summarum:
Code: Alles auswählen
o -> [oöqd]


Gruß,
Quellcore
Intel Core i7-2700K Processor (@ 45*100 = 4500 MHz) on ASRock P67 Extreme4 Gen3 with 16GB G.SKILL Ripjaws X Series (4 x 4GB) 240-Pin DDR3 SDRAM DDR3 2133 (PC3 17000) Model F3-17000CL11Q-16GBXL (Timings 10-10-10-28 2T @ 1866 MHz)
SSD Samsung 128GB 2.5-inch SSD 830 Series (Desktop)
HDD WD Caviar® SE16 640 GB, SATA2, 16 MB Cache, 7200 RPM
ATI Radeon HD 5850 ASUS EAH5850/G/2DIS/1GD5

Win 7 Ultimate 64-Bit / ESET NOD32 Antivirus 5.0 / Firefox 12.0 / Thunderbird 12.0
Spamihilator 1.0.0
Benutzeravatar
Quellcore
Assistent
Assistent
 
Beta-Tester
 
Beiträge: 1683
Registriert: 8. Mai 2004, 14:03
Wohnort: Long Island / USA


Zurück zu Ideen zum Regelfilter

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron

 industrious-southeast