Gary Robinson方式

tokenごとのspam確率を求める方法

Gary Robinson方式でのtokenごとのspam確率をf(w)とする。以下のように求める。

  • token出現回数にバイアスをかけずに、tokenごとのspam確率p(w)を求める。
  • 全tokenでのp(w)の平均値をrobx、tokenの出現回数をn、ある定数(例えば0.001)をrobsとして、

f(w) = ((s * robx) + (n * p(w))) / (robs + n)
とする。過去に出会ったことのないtokenのf(w)も、この式でカバーされる。

メールのspam確率を求める方法

Gary Robinson方式では、以下で求めたSをメールのspam確率とする(確率を[0,1]で表示する場合にはS2)

P = 1 - ( (1-f(w1))* (1-f(w2))*…*(1-f(wn))) ^ (1/n)
Q = 1 - (f(w1)*f(w2)* … *f(wn)) ^ (1/n)
S = (P - Q) / (P + Q)
S2 = (1 + S) / 2