Update:剛剛看到 comment 寫的,很明顯沒看完就耍笨了,這邊是講 Spam Blog (Fake Blog 賺取 PageRank 或是 Google Adsense) 而非 Comment Spam。
InsideGoogle 報導 Blogger 也開始用 CAPTCHA 擋 Comment Spam Spam Blog:Blogger Finally Using Captcha To Block Spam Blogs。
Spam
Update:剛剛看到 comment 寫的,很明顯沒看完就耍笨了,這邊是講 Spam Blog (Fake Blog 賺取 PageRank 或是 Google Adsense) 而非 Comment Spam。
InsideGoogle 報導 Blogger 也開始用 CAPTCHA 擋 Comment Spam Spam Blog:Blogger Finally Using Captcha To Block Spam Blogs。
上課前繼續虎爛一些外電 :p
Slashdot 上提到了 Microsoft Researcher 在科學美國人 (Scientific American) 上發表了一篇對 Spam 及 AntiSpam 技術的看法,包括了傳統的 mail spam、IM spam (ICQ/MSN/Yahoo/…)、spam link (指的是在留言板或是類似的地方貼 link,以提高在搜尋引擎的 Rank 或是增加流量,像是 BLOG 常遇到的 comment spam 或 trackback spam)、image spam:Microsoft Researchers on Stopping Spam (Slashdot)、 Stopping Spam (Scientific American),全文有點長度,不過很值得看一看。
在文章裡用簡單的方式講解許多技術,像是 fingerprinting matching techniques (像是 Nilsimsa Hash,很多 Content-based Spam Filtering 都有用)、n grams model (好像有在哪邊看到,DSpam 好像有在用?)、naive bayesian approach、optical character recognition、challenge/response systems 以及 Human Interacted Proofs。
Matt 在看到 MT 上的 SpamLookup 後,打算把這些功能在下個版本 implement 出來:Default Spam Handling。
Feature | SpamLookup Plugin | WordPress Core |
IP-based lookup | Yes | No |
Domain-based lookup | Yes | No |
TrackBack IP check * | Yes | No |
Passphrase checks | Yes | No |
Checking HTTP Headers | Yes | No |
Hyperlink Count limits | Yes | Yes |
Dynamic proxy checking | Yes | Yes |
Wordlists (blacklist/graylist) | Yes | Yes |
Whitelist URL checks | No | Yes |
Whitelist Author checks | No | Yes |
看起來很完整啊,不知道能不能把 Spam Karma 換掉 :p
Slashdot 的 People are More Accepting of Spam 提到了:雖然信箱裡的 Mail Spam 愈來愈多,但他們愈來愈不在乎這點。
在原來的新聞 Spam and phishing 裡面提到:
More than a year after the CAN-SPAM Act became law, email users say they are receiving slightly more spam in their inboxes than before, but they are minding it less.
另外一點值得注意的是,收到 Porn Spam 的情況愈來愈少:
Among other things, the survey found that people were getting less porn spam, a uniquely troubling form of spam for most users and particularly for women. While 63% of email users now say they have received porn spam, down 8 percentage points from a year ago, 29% of those email users say they are now getting less porn spam, compared to 16% who said they are getting more.
在還沒開 Greylisting 以前,收到的 spam 數量大約在 300 spam/day 封左右,目前打開後剩下 50 spam/day,其中大部分都被 DSpam 給丟到 Spam Folder 了。
目前有一些新的技術在跑,像是 Yahoo! 在推的 DomainKeys、Microsoft 與 Pobox 在推的 Sender Policy Framework (雖然我覺得這是一個問題很多的技術),但突破的方法其實也都有,而且都不難。
只要透過 Open Proxy 用 Provider 的 Webmail 硬送就可以了。如果遇到 AuthImage 類 () 的方式,我猜測這些 Spam Software 的發展者會直接把國外論文的成果 import 進去,有九成左右的辨識率。
大家再想想辦法好了…
Slashdot 上看到新聞,經過陪審團的建議,法官相信北卡羅來納州的 Jeremy Jaynes 在一天內發出一千萬封 spam,而判重刑:Spammer Sentenced to 9 Years in Jail:
Jeremy Jaynes of Raleigh, NC now has the dubious honor of being the first spammer sentenced to jail for the felony of spamming. Virginia judge Thomas Horne sentenced Jaynes to 9 years in prison based on a jury recommendation after he was convicted of sending out 10 million e-mails a day.
雖然案子還在上訴中,不過對於 antispam 組織來說是一項相當好的消息。
最近在測 Python 寫的 SpamBayes,用了一下發現還蠻簡單的,而且速度不錯。(有可能是因為 DSpam 用 MySQL,而 SpamBayes 用 BerkeleyDB 4 的原因)
用 ports (mail/py-spambayes) 裝好後 sb_filter.py
就是最簡單的介面,加上 -h
可以看到說明,不加參數跟 -f
一樣,代表 filter,會在 header 加上 X-Spambayes-Classification
,可以丟給 procmail 或是其他程式判斷。
其他的選項應該只會用到 -g
(train as ham) 與 -s
(train as spam),可以放到 mutt 的 .muttrc
裡面方便自己 train,有興趣的人可以玩看看:
macro index X "<pipe-entry>sb_filter.py -s > /dev/null\n<delete-message>" "mark as spam"
macro pager X "<pipe-entry>sb_filter.py -s > /dev/null\n<delete-message>" "mark as spam"
macro index Z "<pipe-entry>sb_filter.py -g > /dev/null\n" "mark as innocent"
macro pager Z "<pipe-entry>sb_filter.py -g > /dev/null\n" "mark as innocent"
Jeremy Zawodny 之前有 post 一篇:Yahoo! 360 Invites Are Flowing,你可以跟他要 Yahoo! 360° 的 invitation…
不過剛剛看到他在哀嚎 spam 他的人實在太多了 XD
Update: Stop.
Stop.
Please Stop.
Don’t you think that 300+ requests and over 250 via e-mail is TOO MANYY?! Are you REALLY expecting a response at this point?
Google Newsgroups 之的 spam 所以難擋是因為 NNTP-Posting-Host 是 Client IP,而有軟體會用 Open Proxy 連,造成 Cleanfeed 的 phl (NNTP-Posting-Host + Lines) 擋不住。
之前是直接把 Google Newsgroups 直接送 nocem 出去擋 (Issuer: nocem@news.math.nctu.edu.tw,Type: google),剛剛才想到因為 NNTP-Posting-Host 是 Open Proxy IP,可以用 DNSBL 去查,然後擋 Open Proxy。
不過這樣就要考慮一些東西了 (DNSBL 反解不快,可能會造成 innd 卡住),先只用 Spamhaus 的 sbl-xbl.spamhaus.org 做看看好了。
看到 Jan’s Tech Blog 在講用完即丟的 mail address,我之前有用過一些 Disposable Email Address Services,像是 Jetable.org (剛剛發現居然有繁體中文介面) 可以自己設定這個 temporal mail address 要保留多久:24hrs/48hrs/4days/6days/8days。
對於這些用完即丟的 mail address services 也應該要小心挑,因為有些跟本是順便蒐集你的 mail address 來賣… :P 這家在 Disposable Email Address Services 的知名度還算不錯,而且也有歷史了,基本上「可能」比較可以信賴 :p