bogofilter 亂談
玩玩看 bogofilter,我在 ports 裡安裝的是 bogofilter-sqlite,因為 b6s 有跟我說過 sqlite 不錯用。那我就不用 Berkerley DB (43)(mail/bogofilter 原本預設是用 BDB) 也不用另一個版本 bogofilter-qdbm(唔,ychsiao 有跟我提過,不過我不知道好在哪?)。
剛剛要安裝前,照例要先 google 一下,結果中文最大宗的是 gslin 的 autosave XD,這是怎樣? :p
bogofilter 主要的技術核心是 Bayesian algorithm。換句話說,跟統計、機率脫不了關係,既然如此, training 的 corpus 就很重要啦。有人的文章有提到在資料量大的時候,它的表現甚至會比 SpamAssassin 還好,我想就是量大,所以 train 出來的品質夠高囉。
個人是很奉 "garbage in, garbage out"為圭臬的啦。
為什麼會想用它呢?這是宿命啊,好像常常看到 gslin 的文章有 bogofilter,加上現在 bbs spam 又多,於是想嚐鮮一下(喂喂喂,這可不是 偷腥 哦)。當然最大的原因是看起來是快多了,對於個人使用也方便,相關文章這裡有。
用法很簡單啦,就是分別給 bogofilter 有料跟無料是 Spam 和 Non-Spam 的信件,讓它自己去記錄每一種 token(字、詞?)會是 spam 的可能性。FAQ 裡也有提到使用 SpamAssassin 來 train bogofilter 的方法,照抄應該就好了。
其他的呢,我自己都還沒開始用,所以以後再說吧。













Created





ychsiao says:
Added on 十一月 14th, 2005 at 10:42 pmbogofilter-qdbm的port修好了,之前是在做make check時候會去讀local config…然後就爛掉。
有空試一下吧:p