bogofilter 亂談

2005/11/10
By

玩玩看 bogofilter,我在 ports 裡安裝的是 bogofilter-sqlite,因為 b6s 有跟我說過 sqlite 不錯用。那我就不用 Berkerley DB (43)(mail/bogofilter 原本預設是用 BDB) 也不用另一個版本 bogofilter-qdbm(唔,ychsiao 有跟我提過,不過我不知道好在哪?)。

剛剛要安裝前,照例要先 google 一下,結果中文最大宗的是 gslinautosave XD,這是怎樣? :p

bogofilter 主要的技術核心是 Bayesian algorithm。換句話說,跟統計、機率脫不了關係,既然如此, training 的 corpus 就很重要啦。有人的文章有提到在資料量大的時候,它的表現甚至會比 SpamAssassin 還好,我想就是量大,所以 train 出來的品質夠高囉。
個人是很奉 "garbage in, garbage out"為圭臬的啦。

為什麼會想用它呢?這是宿命啊,好像常常看到 gslin 的文章有 bogofilter,加上現在 bbs spam 又多,於是想嚐鮮一下(喂喂喂,這可不是 偷腥 哦)。當然最大的原因是看起來是快多了,對於個人使用也方便,相關文章這裡有

用法很簡單啦,就是分別給 bogofilter 有料跟無料是 Spam 和 Non-Spam 的信件,讓它自己去記錄每一種 token(字、詞?)會是 spam 的可能性。FAQ 裡也有提到使用 SpamAssassin 來 train bogofilter方法,照抄應該就好了。

其他的呢,我自己都還沒開始用,所以以後再說吧。

3 Responses to bogofilter 亂談

  1. Gea-Suan Lin's BLOG on 2005/11/10 at 9:51 下午

    bogofilter

    看到 clsung 這篇 bogofilter 亂談 才發現我好像欠某長輩 bogofilter document 很久了 :p
    查了一下,我是從六月中的時候開…

  2. ychsiao on 2005/11/14 at 10:42 下午

    bogofilter-qdbm的port修好了,之前是在做make check時候會去讀local config…然後就爛掉。
    有空試一下吧:p

  3. jwhuang’s blog » bogofilter on 2005/11/21 at 9:31 下午

    [...] bogofilter 亂談 by clsung [...]

發表迴響

您的電子郵件位址並不會被公開。 必要欄位標記為 *

*


*