频率学派把概率模型中的参数视做一个客观存在的数,固定不变。贝叶斯学派认为一个数据集无法反应参数的具体值,所以认为参数服从某一分布。
问题描述
已知一堆数据,并且知道这堆数据服从某个带参数的概率分布,(比如服从正态分布,$X \sim N(\mu, \sigma^2)$),现在要由这一堆数据估计参数$\mu$,$\sigma^2$,
令$\theta$表示所有参数,(如$\theta = (\mu, \sigma^2)$),估计准则是$\arg \max_\theta p(\theta|D)$
最大似然估计
数据集:$D={x_1,x_2,…,x_n}$, $\theta$:表示参数,最大似然估计是使当前数据集出现概率最大的$\theta$值作为估计值
由贝叶斯公式得:
$p(\theta)=1$,所以:
式$(3)$中$p(D|\theta)$称做似然函数,若$D={x_1,x_2,x_3,…,x_n}$,数据独立,则
实际中为了防止连乘运算导致结果过小,下溢,通常采用对数似然$\log p(D|\theta)$
贝叶斯估计
$\theta$服从一个先验概率,记作$p(\theta)$,需要估计的是知道数据集$D$后,$p(\theta | D)$的分布,$p(\theta |D)$称为后验分布,.式(2)中
把上式(5)带入(2)中并假设数据独立:
知道后验概率后就可以预测新数据出现的概率:
式(8)的积分运算是复杂的,所以可以退而求其次,使用最大后验概率估计。
最大后验概率估计
其实就是用使后验概率最大的$\theta$值作为$\theta$的具体值,也变成了点估计,注意到(7)中的分子是一个确定的归一化常数。