自由度

片方を決めた際にもう片方の候補の数。
つまり、(候補の数−１)となる。

帰無仮説

仮説が正しいと仮定した上で、それに従う母集団から、実際に観察された標本が抽出される確率を求め、その値により判断を行う。

その確率が十分に小さければ、「仮説は成り立ちそうもない」と判断できる。

帰無仮説が正しければ検定統計量がカイ二乗分布に従うような統計学的検定法。
つまり帰無仮説が棄却される可能性によって判断する。

２つの統計的方法を用いたスパムフィルターの性能を比較。
ここでの統計的方法は、

またトークンとして、単語を用いた場合と、文字を用いた場合の比較。

結果として、カイ二乗を用いた方法の方がfalse positiveを減らせたと主張。
また文字レベルのトークンの方が良い結果が出ている。

原作者を識別する際によく使われる方法である。

例

スパマーは世界で１５０くらいしかいないため、この方法を使用する。

この方法を用いたソフトウェア(McCombe)もある。
検査対象のメールに対して、学習済みのデータとの類似値を計算する。

これをカイ二乗検定を用いて計算し、その値を自由度で割った値を使用する。

Paul Graham方式でのtokenごとのspam確率をpg(w)とする。pg(w)を求める際の特徴を挙げる。

Paul Graham方式では、特徴的な(0.5より遠い)pg(w)を持つ15のtokenを使用してcombining probabilityを求め、それをメールのspam確率としている。

確率の定め方が不適切（spamらしさを表していない）
- 出現回数を考慮すべき
- spamらしさと非spamらしさが離散関係にあるのはおかしい
- Baysianの方法を正しく適用していない