bogofilter 亂談

玩玩看 bogofilter,我在 ports 裡安裝的是 bogofilter-sqlite,因為 b6s 有跟我說過 sqlite 不錯用。那我就不用 Berkerley DB (43)(mail/bogofilter 原本預設是用 BDB) 也不用另一個版本 bogofilter-qdbm(唔,ychsiao 有跟我提過,不過我不知道好在哪?)。

剛剛要安裝前,照例要先 google 一下,結果中文最大宗的是 gslinautosave XD,這是怎樣? :p

bogofilter 主要的技術核心是 Bayesian algorithm。換句話說,跟統計、機率脫不了關係,既然如此, training 的 corpus 就很重要啦。有人的文章有提到在資料量大的時候,它的表現甚至會比 SpamAssassin 還好,我想就是量大,所以 train 出來的品質夠高囉。
個人是很奉 "garbage in, garbage out"為圭臬的啦。

為什麼會想用它呢?這是宿命啊,好像常常看到 gslin 的文章有 bogofilter,加上現在 bbs spam 又多,於是想嚐鮮一下(喂喂喂,這可不是 偷腥 哦)。當然最大的原因是看起來是快多了,對於個人使用也方便,相關文章這裡有

用法很簡單啦,就是分別給 bogofilter 有料跟無料是 Spam 和 Non-Spam 的信件,讓它自己去記錄每一種 token(字、詞?)會是 spam 的可能性。FAQ 裡也有提到使用 SpamAssassin 來 train bogofilter方法,照抄應該就好了。

其他的呢,我自己都還沒開始用,所以以後再說吧。

Share and Enjoy: These icons link to social bookmarking sites where readers can share and discover new web pages.
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google
  • funp
  • Haohao
  • Hemidemi
  • Live
  • MisterWong
  • TwitThis
  • udn
 

Other posts

One reply


  1. bogofilter-qdbm的port修好了,之前是在做make check時候會去讀local config…然後就爛掉。
    有空試一下吧:p

2 trackbacks

Leave a reply

Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Taiwan
Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Taiwan