2007-06-18 Spam filter 参考文献Spam filters 概要 2つの統計的方法を用いたスパムフィルターの性能を比較。 ここでの統計的方法は、 ナイーブベイジアンを用いた方法 カイ二乗と自由度を用いた方法 またトークンとして、単語を用いた場合と、文字を用いた場合の比較。結果として、カイ二乗を用いた方法の方がfalse positiveを減らせたと主張。 また文字レベルのトークンの方が良い結果が出ている。 ベイジアン 前回の日記を参照。 カイ二乗と自由度を用いた方法 原作者を識別する際によく使われる方法である。例 シェイクスピアが書いたと思われる詩を診査 ヨーロッパの右翼団体のマニフェストの分析 スパマーは世界で150くらいしかいないため、この方法を使用する。この方法を用いたソフトウェア(McCombe)もある。 検査対象のメールに対して、学習済みのデータとの類似値を計算する。これをカイ二乗検定を用いて計算し、その値を自由度で割った値を使用する。