Wir ertrinken in Information, aber hungern nach Wissen [John Naisbitt]

Site menu:


Letzte Kommentare

Links:

Counter

blogoscoop

Bloggerei

Blogverzeichnis - Blog Verzeichnis bloggerei.de

Archiv

Tag Cloud

Spamassassin optimieren - Erfolgskontrolle

Seit den beiden ersten Teilen über die Optimierung von Spamassassin (unten in den related Links) ist ein wenig Zeit vergangen. Mittlerweile setze ich Spamassassin in der Version 3.25 ein, wodurch sich an meinen Setup aber nichts Grundlegendes geändert hat. Hier mal ein neues Regelwerk (Sought), da ein Plugin rausgeflogen (OCR-Plugin), mehr ist es nicht gewesen.

Für diese kontinuierliche Verbesserung ist es wichtig immer auf den Laufenden zu bleiben und dafür braucht man natürlich Helferlein, mit denen man messen kann wie erfolgreich (oder auch nicht) das eigene Setup wirklich ist. Eines davon ist sa-stats , welches ich im ersten Teil kurz angesprochen hatte. sa-stats liefert ein paar grundlegende Daten über den Email-Traffic, wieviel davon als Spam oder Ham eingestuft wurde und die Trefferquote von Regeln:

Email:     1719  Autolearn:  1553  AvgScore:  29.84  AvgScanTime:  3.75 sec
Spam:      1571  Autolearn:  1505  AvgScore:  33.42  AvgScanTime:  3.74 sec
Ham:        148  Autolearn:    48  AvgScore:  -8.16  AvgScanTime:  3.75 sec

Time Spent Running SA:         1.79 hours
Time Spent Processing Spam:    1.63 hours
Time Spent Processing Ham:     0.15 hours

TOP SPAM RULES FIRED
----------------------------------------------------------------------
RANK    RULE NAME                       COUNT  %OFMAIL %OFSPAM  %OFHAM
----------------------------------------------------------------------
   1    BAYES_99                         1540    89.59   98.03    0.00
   2    RAZOR2_CHECK                     1351    78.77   86.00    2.03
   3    RAZOR2_CF_RANGE_51_100           1342    78.07   85.42    0.00
   4    URIBL_BLACK                      1233    71.90   78.49    2.03
   5    PYZOR_CHECK                      1221    71.09   77.72    0.68
   6    RAZOR2_CF_RANGE_E8_51_100        1143    66.49   72.76    0.00
   7    DIGEST_MULTIPLE                  1108    64.46   70.53    0.00

[..]

TOP HAM RULES FIRED
----------------------------------------------------------------------
RANK    RULE NAME                       COUNT  %OFMAIL %OFSPAM  %OFHAM
----------------------------------------------------------------------
   1    AWL                               136    11.58    4.01   91.89
   2    BAYES_00                           91     5.29    0.00   61.49
   3    BAYES_50                           50     3.66    0.83   33.78
   4    HTML_MESSAGE                       39    57.88   60.85   26.35
   5    SPF_HELO_FAIL                      18     4.07    3.31   12.16
   6    TW_GM                              13     0.81    0.06    8.78
   7    USER_IN_WHITELIST                  11     0.64    0.00    7.43

Hier ist sehr schnell ersichtlich ob etwas falsch läuft, weil z.B. Regeln im Spam-Bereich auftauchen, welche eigentlich in den Ham-Bereich gehören. Etwas ausführlicher, was die selbst hinzugefügten Regeln angeht, ist sa-addon-stats:

Addon Rules hitting the most spam (top 20)
  Ruleset                   Rule Name               % of Spam
  -----------------------------------------------------------
  local.cf                  BAYES_99                  93.86%
  local.cf                  RCVD_IN_BL_SPAMCOP_NET    64.41%
  iXhash.cf                 LOGINHASH                 49.27%
  iXhash.cf                 LOGINHASH2                46.33%
  iXhash.cf                 IXHASH                    24.57%
  local.cf                  AWL                        4.95%
  local.cf                  GP_SCAM_CN                 1.60%
  local.cf                  GEOCITIES1_NUM             0.52%
  local.cf                  BAYES_80                   0.46%
  local.cf                  BAYES_60                   0.36%
  local.cf                  GEOCITIES_NUM              0.11%
Addon Rules hitting the most ham (top 20)
  Ruleset                   Rule Name               % of Ham
  -----------------------------------------------------------
  local.cf                  AWL                       85.89%
  local.cf                  BAYES_60                   0.33%
  local.cf                  BAYES_80                   0.21%
  local.cf                  BAYES_99                   0.14%
  local.cf                  RCVD_IN_BL_SPAMCOP_NET     0.12%
  pdfinfo.cf                GMD_PDF_ENCRYPTED          0.09%
  iXhash.cf                 LOGINHASH2                 0.05%
  local.cf                  GEOCITIES1_NUM             0.05%

Hier lassen sich recht leicht ineffektive Regeln identifizieren. Ein wichtiger Punkt, denn Spamassassin wird durch jede nicht benutzte Regel schlanker und damit schneller. Beides Dinge worüber sich mein kleiner, gequälter Root-Server sich immer freut.

Verwandte Artikel