自由度
片方を決めた際にもう片方の候補の数。
つまり、(候補の数−1)となる。
帰無仮説
仮説が正しいと仮定した上で、それに従う母集団から、実際に観察された標本が抽出される確率を求め、その値により判断を行う。
その確率が十分に小さければ、「仮説は成り立ちそうもない」と判断できる。
Spam filter
参考文献Spam filters
Paul Graham方式
tokenごとのspam確率を求める方法
Paul Graham方式でのtokenごとのspam確率をpg(w)とする。pg(w)を求める際の特徴を挙げる。
- cleanな方向にバイアスをかけるために、cleanなメール中での実際のtoken出現回数を2倍してから、計算する。
- 過去に出会ったことのないtokenのpg(w)は、0.4とする。
メールのspam確率を求める方法
Paul Graham方式では、特徴的な(0.5より遠い)pg(w)を持つ15のtokenを使用してcombining probabilityを求め、それをメールのspam確率としている。