Spamassassin optimieren – Erfolgskontrolle
Seit den beiden ersten Teilen über die Optimierung von Spamassassin (unten in den related Links) ist ein wenig Zeit vergangen. Mittlerweile setze ich Spamassassin in der Version 3.25 ein, wodurch sich an meinen Setup aber nichts Grundlegendes geändert hat. Hier mal ein neues Regelwerk (Sought), da ein Plugin rausgeflogen (OCR-Plugin), mehr ist es nicht gewesen.
Für diese kontinuierliche Verbesserung ist es wichtig immer auf den Laufenden zu bleiben und dafür braucht man natürlich Helferlein, mit denen man messen kann wie erfolgreich (oder auch nicht) das eigene Setup wirklich ist. Eines davon ist sa-stats , welches ich im ersten Teil kurz angesprochen hatte. sa-stats liefert ein paar grundlegende Daten über den Email-Traffic, wieviel davon als Spam oder Ham eingestuft wurde und die Trefferquote von Regeln:
Email: 1719 Autolearn: 1553 AvgScore: 29.84 AvgScanTime: 3.75 sec Spam: 1571 Autolearn: 1505 AvgScore: 33.42 AvgScanTime: 3.74 sec Ham: 148 Autolearn: 48 AvgScore: -8.16 AvgScanTime: 3.75 sec Time Spent Running SA: 1.79 hours Time Spent Processing Spam: 1.63 hours Time Spent Processing Ham: 0.15 hours TOP SPAM RULES FIRED ---------------------------------------------------------------------- RANK RULE NAME COUNT %OFMAIL %OFSPAM %OFHAM ---------------------------------------------------------------------- 1 BAYES_99 1540 89.59 98.03 0.00 2 RAZOR2_CHECK 1351 78.77 86.00 2.03 3 RAZOR2_CF_RANGE_51_100 1342 78.07 85.42 0.00 4 URIBL_BLACK 1233 71.90 78.49 2.03 5 PYZOR_CHECK 1221 71.09 77.72 0.68 6 RAZOR2_CF_RANGE_E8_51_100 1143 66.49 72.76 0.00 7 DIGEST_MULTIPLE 1108 64.46 70.53 0.00 [..] TOP HAM RULES FIRED ---------------------------------------------------------------------- RANK RULE NAME COUNT %OFMAIL %OFSPAM %OFHAM ---------------------------------------------------------------------- 1 AWL 136 11.58 4.01 91.89 2 BAYES_00 91 5.29 0.00 61.49 3 BAYES_50 50 3.66 0.83 33.78 4 HTML_MESSAGE 39 57.88 60.85 26.35 5 SPF_HELO_FAIL 18 4.07 3.31 12.16 6 TW_GM 13 0.81 0.06 8.78 7 USER_IN_WHITELIST 11 0.64 0.00 7.43
Hier ist sehr schnell ersichtlich ob etwas falsch läuft, weil z.B. Regeln im Spam-Bereich auftauchen, welche eigentlich in den Ham-Bereich gehören. Etwas ausführlicher, was die selbst hinzugefügten Regeln angeht, ist sa-addon-stats:
Addon Rules hitting the most spam (top 20) Ruleset Rule Name % of Spam ----------------------------------------------------------- local.cf BAYES_99 93.86% local.cf RCVD_IN_BL_SPAMCOP_NET 64.41% iXhash.cf LOGINHASH 49.27% iXhash.cf LOGINHASH2 46.33% iXhash.cf IXHASH 24.57% local.cf AWL 4.95% local.cf GP_SCAM_CN 1.60% local.cf GEOCITIES1_NUM 0.52% local.cf BAYES_80 0.46% local.cf BAYES_60 0.36% local.cf GEOCITIES_NUM 0.11%
Addon Rules hitting the most ham (top 20) Ruleset Rule Name % of Ham ----------------------------------------------------------- local.cf AWL 85.89% local.cf BAYES_60 0.33% local.cf BAYES_80 0.21% local.cf BAYES_99 0.14% local.cf RCVD_IN_BL_SPAMCOP_NET 0.12% pdfinfo.cf GMD_PDF_ENCRYPTED 0.09% iXhash.cf LOGINHASH2 0.05% local.cf GEOCITIES1_NUM 0.05%
Hier lassen sich recht leicht ineffektive Regeln identifizieren. Ein wichtiger Punkt, denn Spamassassin wird durch jede nicht benutzte Regel schlanker und damit schneller. Beides Dinge worüber sich mein kleiner, gequälter Root-Server sich immer freut.