自由度

片方を決めた際にもう片方の候補の数。 つまり、(候補の数−1)となる。

帰無仮説

仮説が正しいと仮定した上で、それに従う母集団から、実際に観察された標本が抽出される確率を求め、その値により判断を行う。その確率が十分に小さければ、「仮説は成り立ちそうもない」と判断できる。

カイ二乗検定法

帰無仮説が正しければ検定統計量がカイ二乗分布に従うような統計学的検定法。 つまり帰無仮説が棄却される可能性によって判断する。

Spam filter

参考文献Spam filters 概要 2つの統計的方法を用いたスパムフィルターの性能を比較。 ここでの統計的方法は、 ナイーブベイジアンを用いた方法 カイ二乗と自由度を用いた方法 またトークンとして、単語を用いた場合と、文字を用いた場合の比較。結果として…

Paul Graham方式

tokenごとのspam確率を求める方法 Paul Graham方式でのtokenごとのspam確率をpg(w)とする。pg(w)を求める際の特徴を挙げる。 cleanな方向にバイアスをかけるために、cleanなメール中での実際のtoken出現回数を2倍してから、計算する。 過去に出会ったことの…

概要

単語(token)のspam確率から判定する あらかじめtokenごとのspam確率を求めておく。 メールの中に含まれるtokenから、spamであるかどうかを判定する。 準備 spam確率を求める。 判定済のメール内のtoken出現回数を求め、spam / (clean + spam)により確率を求…

参照

http://www.shiro.dreamhost.com/scheme/trans/spam-j.html http://www.shiro.dreamhost.com/scheme/trans/better-j.html http://radio.weblogs.com/0101454/stories/2002/09/16/spamDetection.html

Gary Robinson方式

tokenごとのspam確率を求める方法 Gary Robinson方式でのtokenごとのspam確率をf(w)とする。以下のように求める。 token出現回数にバイアスをかけずに、tokenごとのspam確率p(w)を求める。 全tokenでのp(w)の平均値をrobx、tokenの出現回数をn、ある定数(例…

DMC(Dynamic Markov Coding)によるデータ圧縮

参照 G. V. Cormack and R.N.S.Horspool. Data Compression Using Dynamic Markov Modeling. The Computer Journal, 30(6) :541-550, 1987. 概要 DMC メッセージのバイナリ表現の性質を表す 先のメッセージを予測することで、データ圧縮する(Guazzoの方法を…

SPAM Filterling Using Statistical DATA Compression Models

参照 Bratko,A., Cormack, G. Spam filtering Using statistical data compression models. Jounal of Machine Learning Research 7(Dec. 2006) http://jmlr.csail.mit.edu/papers/topic/ml_sec.html 概要 適応型統計データ圧縮モデルの紹介 文字列分類器の…

DKIM(DomainKeys Identified Mail)の仕組み →DomainKeysとIIM(Identified Internet Mail)を統一したもの。例)usr1@a.com から usr2@b.com へメールを送信する場合(a.com , b,com :ドメイン名) 1. a.comのDNSサーバに電子署名で使用する公開鍵を公開 2. a.com…