指数族与广义线性模型

指数族

将随机变量X写成指数族的形式:
$$p(X=x;\eta)=h(x)exp(\eta^T T(x)-A(\eta))$$
其中:$\eta$是自然参数向量(natural paramater),T(x)是充分统计量(sufficient statistic),$A(\eta)$是对数判分函数(log partition function)。

例子

指数族可以包括许多的例子,比如高斯分布,伯努利分布,多项式分布等。

多元正态分布

令向量$X\in R^k$
$$p(x\mid \mu,\Sigma)=\frac{1}{(2\pi)^{k/2}|\Sigma|^{\frac{1}{2}}}exp \lbrace -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) \rbrace$$
$$=\frac{1}{(2\pi)^{k/2}} exp\lbrace -\frac{1}{2} tr(\Sigma^{-1}x x^T) + \mu^T \Sigma^{-1}x^T- \frac{1}{2}\mu^T \Sigma^{-1}\mu - log|\Sigma|\rbrace$$
对应的指数族表示:
$$\eta = [\Sigma^{-1}\mu; -\frac{1}{2}vec(\Sigma^{-1})]$$ $$ T(x)=[x;vec(xx^T)]$$ $$ A(\eta)=\frac{1}{2} \mu^T \Sigma^{-1} \mu + log|\Sigma| $$ $$ h(x)= \frac{1} { {2\pi}^{k/2} } $$

伯努利分布

$$ p(x;\phi) $$ $$ = \phi^x(1-\phi)^{1-x} $$ $$ = exp(log(\phi^x(1-\phi)^{1-x}) $$ $$ = exp(log(\phi^x)+log((1-\phi)^{1-x})) $$ $$ = exp(xlog(\phi) + (1-x)log(1-\phi)) $$ $$ = exp(xlog(\frac{\phi}{1-\phi})+log(1-\phi))$$
对应于指数族:
$$ \eta = log(\frac{\phi}{1-\phi}) $$ $$ T(x) = x $$ $$ A(\eta) = -log(1-\phi) $$ $$ h(x) = 1 $$

其他

很多的分布可以看做是指数族:单变量高斯分布(the univariate Gaussian),泊松分布(Poisson), 多项分布(multinomial),线性回归(linear regression),伊辛模型(Ising model),受限波尔兹曼机机(restricted Boltzmann machines),还有条件随机场(contional random field,CRFs)。

条件随机场


条件随机场是基于上面图的无向图模型,势函数是定义在成对输出上面的。
$$ p_\theta(y\mid x)=\frac{1}{Z(x)}exp(\Sigma_{e\in E,k} \lambda_k f_k(e,y\mid_e, x) + \Sigma_{v\in V,k} \mu_k g_k(v,y\mid_v, x))$$
其中$f_k$和$g_k$是固定的,$g_k$是波尔顶点特征,$f_k$是波尔边特征。

指数族特性

指数族具有如下的特性:

  1. 对数配分函数的第d阶导数,是充分统计量的第d阶中心距。
    比如:对数配分函数的一阶导数是T(X)的均值,其二阶导是T(X)的方差。
  2. 因为对数配分函数的二阶导是正的,所以对数配分函数是凸的,因此方差总是非负的。
  3. 我们可以将对数配分函数的一阶导看成自然参数的函数,然后令其为零,反过来利用距参数就可以解决自然参数,记作:$\eta = \psi(\mu)$ 。
  4. 在指数族上进行最大似然估计与矩匹配是一致的。
  • 写出一般指数族的对数似然函数:
    $$ const + \eta^T (\Sigma_{i=1}^n T(x_i)) - nA(\eta) $$
  • 求似然函数的梯度:
    $$ \Sigma_{i=1}^n T(x_i)) - n\Delta_\eta A(\eta) $$
  • 令$\Delta_\eta A$为零:
    $$ \Delta_\eta A = \frac{1}{n}\Sigma_{i=1}^T T(x_i) \Rightarrow \mu = \frac{1}{n}\Sigma_{i=1}^T T(x_i) \Rightarrow 矩估计=样本距 $$

充分统计量


从贝叶斯的观点出发:如果T具备了我们预测参数$\theta$的所有信息(即T是充分统计量),那么$\theta \perp X \mid T \Rightarrow P(\theta \mid X, T)=P(\theta\mid T)$。
从频率学派的角度出发:如果T已知的用来产生数据的参数,那么$ X \perp \theta \mid T \Rightarrow P(X\mid T;\theta) = P(X\mid T) $
从马尔科夫随机场的角度进行考虑:

贝叶斯

重新从贝叶斯的角度出发,写出给定自然参数的似然函数,我们选择了一个自然参数先验,然后计算出自然参数的后验概率。
比如:
$$ p(x\mid \eta) \propto exp(\eta^ T T(x) - A(\eta))$$
$$ p(\eta) \propto exp(\xi^T T(\eta) - A(\xi)) $$
$$ p(\eta\mid x, \xi) \propto exp(\eta^T T(x) + \xi^T T(\eta) + A(\eta) + A(\xi)) $$
如果$\eta = T(\eta)$ ,那么后验概率变为:
$$ p(\eta\mid x, \xi) \propto exp(T(\eta)(T(x) + \xi)+ A(\eta) + A(\xi)) $$
当$ \eta = T(\eta)$ ,我们指定$\eta ~exponentialFamily$,这是先验就是共轭先验。

广义线性模型

广义线性模型可以将分类和回归问题进行统一,使用相同的统计框架。
假定:
$$ Y \sim exponentialFamily $$
$$ \eta = \psi(\mu=f(\xi = \theta^T x)) $$
其中Y是响应,x是固定输入,$\theta$是需要学习的参数,$f$(响应函数,response function),$\psi$增加了一定的灵活性,f经常被设定为$\psi^{-1}$(canonical response function)。

广义线性模型的批学习

考虑通过求导的方法来解决最小二乘问题,就是使代价函数达到极小:
$$ J(\theta) = \frac{1}{2} \Sigma_{i=1}^n (x_i^T\theta - y_i)^2 = \frac{1}{2} (X\theta-y) $$
$x_i$表示第i个输入样本,$y_i$表示第i个输出样本。
对$J(\theta)$求一阶导并令其为零,可以得到取得极小值时的$\theta$。
$$ \triangledown J(\theta) = X^T X\theta - X^T y = 0 \Rightarrow \theta^* = (X^T X)^{-1} X^T y $$
使用牛顿法进行迭代寻找最优解,牛顿法更新参数更新准则:
$$ \theta^{t+1} = \theta^t - H^{-1}\triangledown J(\theta) $$

对数似然函数$l = \Sigma_n logh(y_n) + \Sigma_n(\theta^T x_n y_n - A(\eta))$
下面获得Hessian阵:
\begin{equation}\begin{split} H&=\frac{d^2 l}{d\theta d\theta^T}\\
& = \frac{d}{d\theta^T}\Sigma_n(y_n-\mu_n)x_n\\
& = \Sigma_n x_n \frac{d\mu_n}{d\theta^T}\\
& = -\Sigma_n X_n \frac{d\mu_n}{d\eta_n} \frac{d\eta_n}{d\theta^T}\\
& = -\Sigma_n X_n \frac{d\mu_n}{d\eta_n} x_n^T \ 因为\eta_n = \theta^T x_n\\
& = -X^T W X
\end{split}\end{equation}
其中$X = [x_n^T]$,$W = diag[\frac{d\mu_1}{d\eta_1},…,\frac{d\mu_N}{d\eta_N}]$。W可以同过计算$A(\eta)$的二阶导来计算。
代换上式中的$\triangledown J(\theta)$和H,可以得到:
$$ \theta^{t+1} = (X^T W^t X)^{-1} X^T W^t z^t $$
其中$z^t = X\theta^ t + (W^t)^{-1}(y - \mu^t)$。因为W是对角阵,所有该式子具有解耦的作用。

对数几率回归

条件概率分布如下(伯努利分布):
$$ p(y \mid x) = \mu(x)^y (1-\mu(x))^{1-y} $$
其中$\mu$是logistic函数
$$ \mu(x) = \frac{1}{1 + e^{-\eta(x)}} $$

由于$p(y\mid x)$是指数族,
均值:
$$ E[y\mid x] = \mu = \frac{1}{1 + e^{-\eta(x)}} $$
canonical response function:
$$ \eta = \xi = \theta^T x $$
利用上面的方法广义线性模型中的方法求W:
$$ \frac{d\mu}{d\eta} = \mu (1 - \mu) $$
$$ W =
\begin{pmatrix}
\mu_1 (1 - \mu_1)\\
&\ddots \\
& & \mu_N (1-\mu_N) \\
\end{pmatrix}
$$
其中N是训练样本的数量,d是输入样本的维度。上面的方法每代复杂度为$O(Nd^3)$。可以利用拟牛顿法来近似计算Hessian阵来减小运算成本。
共轭梯度每代的复杂度为$O(N d)$,在实际中使用效果更好。dang样本数量较大时,也可以采用随机梯度下降。

线性回归

条件概率分布为:
$$p(y\mid x,\theta,\Sigma)=\frac{1}{(2\pi)^{k/2}\Sigma^{\frac{1}{2}}}exp \lbrace \frac{1}{2}(y-\mu)^T\Sigma^{-1}(y - \mu) \rbrace$$
从上面多元正态分布中,可以写成指数族的形式。
利用上面的方法广义线性模型中的方法求W:
$$ \frac{d\mu}{d\eta} = 1 $$
$$ W = 1 $$
更新规则如下:
$$ \theta^{t+1} = \theta^t + (X^T X)^{-1} X^T(y - \mu^t) $$

总结

  • 对于指数族分布,最大似然估计等价于矩估计。
  • 广义线性模型是图模型的实际应用中的重要组成部分。
  • 要选择合适的独立性以及合适的先验。

参考文献

[1] http://www.cs.cmu.edu/~epxing/Class/10708-14/lecture.html
注:本文主要参考[1]中第6讲视频以及笔记。

非常感谢各位老板投喂!