Hallo Quellcore!
Ich glaube, unser Verständnisproblem rührt daher, dass Du eine andere Vorstellung von der Arbeitsweise des Filters hast als ich. Deine Überlegungen sind durchaus richtig, setzen aber einige Annahmen vorraus, die aus meiner Sicht so nicht stimmen.
Es muss abhängig von der Art, ob man mit installierten Spam-Sprachen oder Non-Spam Sprachen filtern möchte, auch die Aktion für unbekannte Sprachen angepasst werden.
* Ansatz mit "Non-Spam" Sprache
Mails in dieser Sprache ignorieren >>> Mails mit unbek. Sprachen sind Spam
* Ansatz mit "Spam" Sprache
Mails in dieser Sprache sind Spam >>> Mails mit unbek. Sprachen werden ignoriert
Korrekt. Deine Ansätze sind auch meine. Sie vereinen geringen Ressourcenverbrauch (und damit Geschwindigkeit) mit Effektivität. Du unterschlägst aber die Möglichkeit, eine Spam-Sprache und eine Non-Spam-Sprache gleichzeitig einzusetzen. Ich kann durchaus die Sprache Deutsch installieren und diese zur Non-Spam-Sprache machen. Gleichzeitig installiere ich Chinesisch und erkäre diese Sprache zur Spam-Sprache. Oder anders ausgedrückt, ich definiere eine Regel für jede Sprache, mit der ich in E-Mails zu tun habe und entscheide am Ende nur noch, ob unbekannte Sprachen Spam, Non-Spam oder ignoriert werden sollen (Das ist die klassisch Spami-Arbeitsweise. Kann ich eine eindeutige Entscheidung treffen, wird die Mails aussortiert oder weitergeleitet. Wenn nicht, geht sie an den nächsten Filter). In diesem Fall geht Dein Ansatz mit dem rauf- und runtersetzten des Schwellwertes schief, weil er nicht pro Sprache eingestellt werden kann. Das ist aber auch nicht nötig. Im Gegenteil. Es ist wichtig, dass jede Sprache so korrekt wie möglich erkannt wird. Und hier, denke ich, liegt Dein Denkfehler. Der Schwellwert sorgt nicht für das häufigere Erkennen einer Sprache sondern für das genauere Erkennen. Wenn der Schwellwert per Default auf 60% steht, heißt das nichts anderes, als das eine Sprache als erkannt gilt, wenn aus der Gesamtheit aller Wörter einer Mail 60% mit bekannten Wörtern des entsprechenden Wörterbuches übereinstimmen. 40% können auch Wörter einer anderen Sprache sein. Das heißt, dass ein niedriger Schwellwert unter Umständen dafür sorgt, dass eine falsche Sprache oder gar keine erkannt wird. Damit würde der Filter aber nicht mehr wie vorgesehen arbeiten, sondern besonders viele Fehlentscheidungen treffen. Der Schwellwert sollte aber auch nicht zu hoch sein, damit die Fehlertoleranz für die Erkennung nicht so leidet. Das macht sich dann am meisten in Mails mit nur wenigen Wörtern bemerkbar.
folgendes würde überhaupt keinen Sinn ergeben:
Ansatz mit "Spam" Sprache
Mails in dieser Sprache sind Spam >>> Mails mit unbek. Sprachen sind Spam
Nun ja, es läßt sich der Vollständigkeit halber Konfigurieren, ist aber Doppelt gemoppelt. In diesem Fall müßte man also das Verhalten für unbekannte Sprachen auf ignorieren stellen.
Gruß
Andreas_Z