朴素贝叶斯

最大似然估计(Maximum Likelihood Estimation, MLE)

这里有一道题:

设 $X$ 的分布律为:

其中 $\theta(0<\theta<\frac1 2)$ 为未知参数,利用总体 $X$ 的如下样本值 $3,1,3,0,3,1,2,3$ 求 $\theta$ 最大似然估计值。

[] 令

令 $\frac{d\ln L(\theta)}{d\theta}=0$ 可得 $\hat \theta = \frac{7-\sqrt {13}}{12}$

最大似然(likelihood)估计是参数估计的一种方式,他根据已经经过实验得来的样本作为依据,通过求 $\max L(\theta)$ 也就是 $\max P(X~|~\theta)$ 来求得最有可能出现的参数 $\hat\theta$ ,这也就是习题中令$\ln L(\theta)$的导数为 $0$ 的原因。

极大似然估计可以写成:

贝叶斯公式

我们都熟悉的贝叶斯公式是这样的:

其中 $P(\theta)$ 被称作先验概率;$P(\theta~|~x)$ 被称作后验概率

举一个非常简单的例子:

上面有两个盒子,我随机从两个盒子里面抽出一个盒子,再从盒子里面抽出一个球,已知抽出来的是一个黑球,那么我选择每个盒子的概率是多少?

根据贝叶斯公式,有:

同样的,还可以求出二号盒子的概率:

上面的例子中,先验概率是 $P(\theta=\text i号盒子)$ 。开始进行试验之前,我们并没有什么证据表明更倾向于拿哪个盒子,也不知道盒子里面都有什么,每个盒子的可能性都是一样的。

似然就是 $P(x=结果~|~\theta=\text i号盒子)$ ,当我们不知道盒子里面的东西都是啥的时候,可以进行试验,并且通过最大似然对参数进行估计(比如我对二号盒子试验了 $100$ 次,其中 $75$ 次拿出了黑球,就可以估计 $P(x=黑球~|~\theta=二号盒子)=0.75$ )。当然了,这个例子中图里面都画了出来,就不用对盒子进行估计了。

后验概率是 $P(\theta=\text i号盒子~|~x=结果(黑球/白球))$ 。这是我们在经过试验得出结果后,再对参数的估计。

当我经过上面的试验与计算得出结果后,我还想再拿一个黑球,那么贝叶斯公式就可以告诉你:“你可以去拿二号盒子里的球,这样你的成功概率会大很多。”;或者说,你拿了一个白球,贝叶斯公式就会告诉你:“你很有可能是从一号盒子里拿的”。

朴素贝叶斯(Naive Bayesian)

朴素贝叶斯是以贝叶斯公式为基础的分类算法。而“朴素”是指:假设一个样本的所有属性都是条件独立的,不同属性相互之间毫无影响。

那么朴素贝叶斯公式为:

其中 $x_j$ 是样本 $x$ 的第 $j$ 个属性。

看到这个公式的时候我就很疑惑,上面中的贝叶斯公式 $P(\theta~|~x)$ 怎么到下面就变成了 $P(y~|~x)$,贝叶斯公式不是“执果索因”吗?其实贝叶斯公式中的$\theta$与$x$并没有什么前后关系,只是人为的把他分成了先选 $\theta$ 之后再选 $x$。比如上面的例子中把两个盒子中的每个球都在上面写好自己属于哪个盒子,然后再都放到一个大盒子里,再抽取样本,那么就可以把朴素贝叶斯公式写成 $P(y=\text i号盒子~|~x=球的属性)$,就和之前例子中的$P(\theta=\text i号盒子~|~x=结果)$没什么两样啦!

由上式可知 $P(yi~|~x) \propto {P(y_i)}\prod{j=1}^nP(x_j~|~y_i)$,而 $P(x)$ 又是一个与 $y_i$ 无关的常数,那么上述公式的分类结果就可以写成:

其中:

这都是对于离散的属性而言的,如果对于连续属性来说就可能有点难办了。假定$P(xj~|~y_i)\sim\mathcal N(\mu{i,j},\sigma{i,j})$,其中 $\mu{i,j}$ 与 $\sigma_{i,j}$ 来表示样本中第 $y_i$ 类中所有 $x_j$ 属性的均值于方差,则有:

拉普拉斯(Laplace)平滑

当然,上面的公式还可能存在一些问题,比如当我们分类没有标签的新样本中出现了一个属性 $x_u$ 而这个属性在$y_k$类的测试集中没有出现,那么 $P(x_u~|~y_k)=0$。那么当然,这个样本在$y_k$类中的几率也为 $0$ ,不管其他的属性是多么符合 $y_k$ 类的要求。显然这是不合理的,我们对 $P(y_i)$ 与 $P(x_j~|~y_i)$ 进行修正: