矩阵正态分布

正态分布

关于正态分布的由来,在文章《正态分布的前世今生》中写的很清楚,正态分布是由二项分布而来。正态分布的密度形式首次发现是在棣莫弗-拉普拉斯中心极限定理中。读者可以通过以下几个链接深入了解正态分布的含义
正态分布的前世今生(上)
正态分布的前世今生(下)
为什么正态分布如此常见

棣莫弗-拉普拉斯中心极限定理
设随机变量$X_n(n=1,2,\cdots)$服从参数为$n,p(0<p<1)$的二项分布,则对于任意$x$, 有
\begin{align}
\underset{n\rightarrow \infty}{\lim} \text{P}\left\{ {\frac{X_n-np}{\sqrt{np(1-p)} }\leq x}\right\}=\int_{-\infty}^x \frac{1}{\sqrt{2\pi} }\exp \left({-\frac{t^2}{2} }\right)\text{d}t=\Phi(x)
\end{align}
从该定理中可以看出,当$n\rightarrow \infty$时候,可以用二项分布趋于高斯分布。我们可以通过棣莫弗-拉普拉斯中心极限定理来计算二项分布的概率。

设随机变量随机变量$X$服从正态分布(高斯分布)$X\sim \mathcal{N}(\mu,\sigma_2^2)$,则其概率密度函数表示为
\begin{align}
p(x)=\frac{1}{\sqrt{2\pi\sigma^2} }\exp\left[{-\frac{(x-\mu)^2}{2\sigma} }\right]
\end{align}

多元正态分布

设$X,Y$为独立同分布的随机变量,且$X\sim \mathcal{N}(0,1)$。则$X,Y$的联合分布为
\begin{align}
p(x,y)=p(x)p(y)=\frac{1}{2\pi}\exp(-\frac{1}{2}(x^2+y^2))
\end{align}
设$\mathbf{z}=[X,Y]^T$,则有
\begin{align}
p(\boldsymbol{z})=\frac{1}{\pi}\exp (-\frac{1}{2}\boldsymbol{z}^T\boldsymbol{z})=\frac{1}{\pi}\exp (-\frac{1}{2}\text{tr}(\boldsymbol{z}\boldsymbol{z}^T))
\end{align}
令$\mathbf{z}=\boldsymbol{A}(\mathbf{x}-\boldsymbol{\mu})$,该线性变换的雅可比行列式为
\begin{align}
J=|\boldsymbol{A}|
\end{align}
代入$\mathbf{z}$的概率公式中有,
\begin{align}
p(\boldsymbol{x})=\frac{|\boldsymbol{A}|}{\pi}\exp \left[{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^T\boldsymbol{A}^T\boldsymbol{A}(\boldsymbol{x}-\boldsymbol{\mu})}\right]
\end{align}
令$\boldsymbol{\Sigma}^{-1}=\boldsymbol{A}^T\boldsymbol{A}$,则
\begin{align}
p(\boldsymbol{x})=\frac{1}{\sqrt{|\boldsymbol{\Sigma}|}2\pi}\exp \left[{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})}\right]
\end{align}
若$\mathbf{x}$的维数是$n$,则有
\begin{align}
p(\boldsymbol{x})=\frac{1}{\sqrt{|\boldsymbol{\Sigma}|}(2\pi)^{n/2} }\exp \left[{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})}\right]
\end{align}

矩阵正态分布

设随机矢量$\mathbf{x}\in \mathbb{R}^n$服从多元高斯分布$\mathbf{x}\sim \mathcal{N}(\boldsymbol{0},\mathbf{I})$,随机矢量$\mathbf{y}$与$\mathbf{x}$独立同分布,则$\mathbf{x},\mathbf{y}$的联合概率密度为
\begin{align}
p(\mathbf{x},\mathbf{y})=\frac{1}{(2\pi)^n}\exp\left[{-\frac{1}{2}(\mathbf{x}^T\mathbf{x}+\mathbf{y}^T\mathbf{y})}\right]
\end{align}
令$\mathbf{Z}=[\mathbf{x},\mathbf{y}]$,则有
\begin{align}
p(\mathbf{Z})=\frac{1}{(2\pi)^n}\exp\left[{-\frac{1}{2}\text{tr}(\mathbf{Z}\mathbf{Z}^T)}\right]
\end{align}
设$\mathbf{Z}=\boldsymbol{A}(\mathbf{X}-\boldsymbol{M})\boldsymbol{B}$, 其中$\boldsymbol{A}\in \mathbb{R}^{n\times n}, \boldsymbol{B}\in \mathbb{R}^{2\times 2}$。其雅可比行列式为
\begin{align}
J=|\boldsymbol{A}|^n|\boldsymbol{B}|^2
\end{align}
关于上式的详细解释参见附录A。
因此
\begin{align}
p(\boldsymbol{X})&=\frac{1}{(2\pi)^n}|\boldsymbol{A}|^n|\boldsymbol{B}|^2\exp\left[{-\frac{1}{2}\text{tr}(\boldsymbol{A}(\boldsymbol{X}-\boldsymbol{M})\boldsymbol{BB}^T(\boldsymbol{X}-\boldsymbol{M})^T\boldsymbol{A}^T)}\right]\\
&=\frac{1}{(2\pi)^n}|\boldsymbol{A}|^n|\boldsymbol{B}|^2\exp\left[{-\frac{1}{2}\text{tr}(\boldsymbol{A}^T\boldsymbol{A}(\boldsymbol{X}-\boldsymbol{M})\boldsymbol{BB}^T(\boldsymbol{X}-\boldsymbol{M})^T)}\right]
\end{align}
令$\boldsymbol{\Omega}^{-1}=\boldsymbol{A}^T\boldsymbol{A}$, $\boldsymbol{\Sigma}^{-1}=\boldsymbol{BB}^T$, 则
\begin{align}
p(\boldsymbol{X})=\frac{1}{(2\pi)^n}|\boldsymbol{\Omega}|^{-n/2}|\boldsymbol{\Sigma}|^{-2/2}\exp\left[{-\frac{1}{2}\text{tr}(\boldsymbol{\Omega}^{-1}(\boldsymbol{X}-\boldsymbol{M})\boldsymbol{\Sigma}^{-1}(\boldsymbol{X}-\boldsymbol{M})^T)}\right]
\end{align}
若$\boldsymbol{Z}$有$p$列,则
\begin{align}
p(\boldsymbol{X})=\frac{1}{(2\pi)^{np} }|\boldsymbol{\Omega}|^{-{n}/2}|\boldsymbol{\Sigma}|^{-p/2}\exp\left[{-\frac{1}{2}\text{tr}(\boldsymbol{\Omega}^{-1}(\boldsymbol{X}-\boldsymbol{M})\boldsymbol{\Sigma}^{-1}(\boldsymbol{X}-\boldsymbol{M})^T)}\right]
\end{align}

附录 A

设线性变换$\boldsymbol{Y}=\boldsymbol{AX}$, 其中$\boldsymbol{X}\in \mathbb{R}^{m\times n}$, $\boldsymbol{A}\in \mathbb{R}^{m\times m}$
\begin{align}
\text{vec}(\boldsymbol{Y})=\text{vec}(\boldsymbol{AX})=(\mathbf{I}_n \otimes \boldsymbol{A})\text{vec}(\boldsymbol{X})
\end{align}
因此该线性变换的雅可比行列式为
\begin{align}
J=|\mathbf{I}_n \otimes \boldsymbol{A}|=|\boldsymbol{A}|^{n}
\end{align}
设置线性变换$\boldsymbol{Y}=\boldsymbol{XB}$,其中$\boldsymbol{X}\in \mathbb{R}^{m\times n}$, $\boldsymbol{B}\in \mathbb{R}^{n\times n}$
\begin{align}
\text{vec}(\boldsymbol{Y})=\text{vec}(\boldsymbol{XB})=(\boldsymbol{B}^T\otimes \mathbf{I}_m)\text{vec}(\boldsymbol{X})
\end{align}
因此该线性变换的雅可比行列式为
\begin{align}
J=|\boldsymbol{B}^T\otimes \mathbf{I}_m|=|\boldsymbol{B}|^{m}
\end{align}