高斯噪声与中心极限定理

前言

  
在众多的信号处理学科领域,噪声一直是衡量算法或系统抗噪声性能的一种指标,笔者是通信专业的学生。对于一个通信系统而言,衡量一个通信系统的质量有两个最重要的指标,一个是有效性,一个是可靠性。有效性的衡量标准是传输带宽,而可靠性的衡量准则是误码率。在误码率的计算中,取决于信噪比和码间串扰等因素。另外,信噪比的定义是信号的能量与噪声的能量的比值。那么如何合理的用数学模型来描述噪声呢?
 
在长达四年的本科学习中,笔者发现,通信专业的书中一般假设噪声服从高斯分布(复信号服从循环对称高斯分布,其实部和虚部分别服从高斯分布)。笔者很是不解,为什么噪声是高斯的?记得在“通信原理”课上,当我问老师的时候,老师回答说“中心极限定理”。事实上,很多信号处理领域的学生一直不明白为什么噪声是高斯的,包括很多通信专业的学生。笔者觉得“为什么噪声是高斯的”这个问题是一个很重要的问题,它直接关系到绝大多数的理论的合理性。
    
实际系统中,由于存在众多噪声源,且大多噪声源(电子噪声,电磁噪声等)满足相互独立假设,当噪声源数量足够多时,且每个噪声源对于总体的贡献可忽略不计,根据中心极限定理可知,这些噪声源的累加的结果服从高斯分布。此篇推导是笔者在考研的时候完成的,现在重新整理与大家分享。由于本人所学知识有限,诚恳地希望读者批评指正。

辛钦大数定律

设随机变量$X_1,X_2,\cdots ,X_n$是相互独立同分布的随机变量序列,且具有相同的数学期望$\mathbb{E}[X_i]=\mu,\ (i\in [n])$,作前$n$个随机变量的算数平均值$\frac{1} {n}\sum\nolimits_{i=1}^nX_i$,则$\forall \varepsilon >0$,有
\begin{align}
\lim\limits_{n\rightarrow \infty} P\left\{ {\left|{\frac{1} {n}\sum\limits_{i=1}^nX_i-\mu}\right|< \varepsilon }\right\}=1
\end{align}

证:我们只在随机变量$D(x_i)= { {\sigma }^{2} } \ (i\in [n])$存在,这一条件下证明上述结果。
因为
\begin{align}
\mathbb{E}\left({\frac{1} {n}\sum\limits_{i=1}^nX_i}\right)=\frac{1} {n}\sum\nolimits_{i=1}^n\mathbb{E}[X_i]=\mu
\end{align}
根据独立性,有
\begin{align}
D\left({\frac{1} {n}\sum\limits_{i=1}^nX_i}\right)=\frac{1} {n^2}\sum\limits_{i=1}^nD(x_i)=\frac{\sigma^2} {n}
\end{align}
由切比雪夫不等式【见附录A】,有
\begin{align}
1-\frac{\sigma^2/n} {\varepsilon^2}
\leq
P\left\{ {\left|{\frac{1} {n}\sum\limits_{i=1}^nX_i-\mu}\right|< \varepsilon }\right\}
\leq
1
\end{align}
当$n\to \infty $时,由夹逼准则,可得
\begin{align}
\lim\limits_{n\rightarrow \infty} P\left\{ {\left|{\frac{1} {n}\sum\nolimits_{i=1}^nX_i-\mu}\right|< \varepsilon }\right\}=1
\end{align}

Remarks:
  1. 辛钦大数定理所说明的是,当随机变量个数$n\rightarrow \infty$时,这些随机变量的算术平均$\frac{1} {n}\sum\nolimits_{i=1}^nX_i$逐渐趋于概率均值$\mu$。
  2. 另一方面,假设$\left\{ {x_i}\right\} (i\in [n])$为随机变量$X$的样本,则当样本个数$n\rightarrow \infty$时,有样本均值趋于统计均值,即$\frac{1} {n}\sum\nolimits_{i=1}^nx_i=\mathbb{E}[X]$。

特征函数

大多数情况下,数字特征(均值,方差,各阶距)不能完全确定随机变量的分布(除少数分布,如高斯分布,仅需要一阶矩和二阶矩就可以确定概率分布,详见附录B),我们需要一种与概率分布对应的一种表示,并且相对于概率分布更有利于计算。特征函数就是这样的一种与随机变量对应的表示,既能完全决定随机变量的分布函数,又具有良好的性质。

定义:设$X$为实随机变量,其概率密度为$p_X(x)$,我们称
\begin{align}
\phi_X(t)=\mathbb{E}[\exp(itX)]=\int e^{itx}p_X(x)\text{d}x
\end{align}
为随机变量$X$的特征函数(characteristic funciton)这里的$t$是任意实数。

设随机变量$X$的特征函数为$\phi_X(t)$,则存在以下特性:

  1. 若随机变量具有相同的特征函数,则它们具有相同的概率分布,即若随机变量$Y$的特征函数$\phi_Y(t)=\phi_X(t)$,则有$p_Y(y)=p_X(x)$。
  2. 独立同分布随机变量和的特征函数,等于每个随机变量特征函数的乘积。
  3. 设$Z=aX$,则有$\phi_Z(t)=\phi_X(at)$。

Remarks: 从特征函数的定义上可以看出,$X$的特征函数$\phi_X(t)$也是概率密度$p_X(x)$的傅里叶变换的共轭复数。而,傅里叶变换正是一种将信号从时域投影到频域的信号分解技术,其存在的意义,就是将信号转换到频域更有利于相应的处理。因此,不难看出,特征函数与概率密度是对应关系。关于特征函数的这些特性,笔者将在附录B中给出详细证明。

中心极限定理

设随机变量$X_1,\cdots ,X_n$相互独立同分布,且具有相同的数学期望和方差,即$\mathbb{E}( { {x}_{i} } )=\mu $,$D( { {x}_{i} } )= { {\sigma }^{2} } $,则随机变量之和的归一化变量
\begin{align}
Y_n=
\frac{\sum\limits_{i=1}^nX_i-\mathbb{E}\left(\sum\limits_{i=1}^nX_i\right)}
{\sqrt{D\left(\sum\limits_{i=1}^nX_i\right)} }
=\frac{\sum\limits_{i=1}^nX_i-n\mu} {\sqrt{n}\sigma}
\end{align}
的分布函数$ { {F}_ { { { Y}_{n} } } } (x)$对$\forall x$,满足
\begin{align}
\lim\limits_{n\rightarrow \infty}F_{Y_n}(x)
=\lim\limits_{n\rightarrow \infty}P\left\{ {\frac{\sum\limits_{i=1}^nX_i-n\mu} {\sqrt{n}\sigma}\leq x}\right\}
=\int^x_{-\infty}\frac{1} {\sqrt{2\pi} } e^{-t^2/2}\text{d}t=\Phi(x)
\end{align}
即,$\lim\limits_{n\rightarrow \infty}\frac{\sum\nolimits_{i=1}^nX_i-n\mu} {\sqrt{n}\sigma}\sim \mathcal{N(0,1)}$。

证:
$\underline{\text{step 1} } $:设$Z_i=X_i-\mu$,则$Z_i \ (i\in[n])$相互独立,且$\mathbb{E}[Z_i]=0$,$D(Z_i)=\sigma^2$。设$Z_i$的特征函数为$\phi_{Z_i}(t)$,根据特征函数的性质3,随机变量$\frac{1} {\sqrt{n}\sigma}Z_i$的特征函数为$\phi_{Z_i}(\frac{1} {\sqrt{n}\sigma}t)$。而
\begin{align}
Y_n=\frac{\sum\limits_{i=1}^nX_i-n\mu} {\sqrt{n}\sigma}=\sum\limits_{i=1}^n\left({\frac{Z_i} {\sqrt{n}\sigma} } \right)
\end{align}
根据,特征函数的性质2,得到$Y_n$的特征函数为$\prod\limits_{i=1}^n\left[{\phi_{Z_i}\left({\frac{1} {\sqrt{n}\sigma }t}\right)}\right]$。

$\underline{\text{step 2} } $:对$\phi_Z(t)$在$t=0$处,进行二阶泰勒展开,有
\begin{align}
\phi_{Z_i}(t)=\phi_{Z_i}(0)+\phi’_{Z_i}(t)|_{t=0}t+\phi’’_{Z_i}(t)(t)|_{t=0}t^2+o(t^2)
\end{align}
其中
\begin{align}
\phi_{Z_i}(0)&=\int_{-\infty}^{+\infty}p_{Z_i}(z)\text{d}z=1\\
\phi’_{Z_i}(t)|_{t=0}&=\left[{\int_{-\infty}^{+\infty}jz e^{jtz}p_{Z_i}(z)\text{d}z}\right]_{t=0}=0\\
\phi’’_{Z_i}(t)|_{t=0}&=-\left[{\int_{-\infty}^{+\infty}z^2e^{jtz}p_{Z_i}(z)\text{d}z}\right]_{t=0}=-\sigma^2
\end{align}

\begin{align}
\phi_{Z_i}(t)=1-\frac{\sigma^2} {2}t^2+o(t^2)
\end{align}
相应地
\begin{align}
\phi_{Y_n}(t)
=\prod\limits_{i=1}^n\left[{\phi_{Z_i}\left({\frac{1} {\sqrt{n}\sigma }t}\right)}\right]
=\left[{1-\frac{1} {2n}t^2+o\left({\frac{t^2} {n\sigma^2} } \right)}\right]^n
\end{align}

$\underline{\text{step 3} } $:
\begin{align}
\lim\limits_{n\rightarrow \infty} \phi_{Y_n}(t)
&=\lim\limits_{n\rightarrow \infty} \left[{1-\frac{1} {2n}t^2+o\left({\frac{t^2} {n\sigma^2} } \right)}\right]^n\\
&=\lim\limits_{n\rightarrow \infty} \left({1-\frac{1} {2n}t^2}\right)^n\\
&=\lim\limits_{n\rightarrow \infty} \left({1-\frac{1} {2n}t^2}\right)^{\frac{2n} {t^2}\times \frac{t^2} {2} } \\
&=e^{-t^2/2}
\end{align}
其中,最后一个公式成立,根据极限公式$\lim\limits_{x\rightarrow \infty}\left({1+\frac{1} {x} } \right)^x=e$。因此,随机变量$Y_{n}=\lim\limits_{n\rightarrow \infty}\frac{\sum\nolimits_{i=1}^nX_i-n\mu} {\sqrt{n}\sigma}$的特征函数为$\phi_{Y_n}(t)=e^{-t^2/2}$。

$\underline{\text{step 4} } $:又因为标准正态分布的特征函数为$e^{-t^2/2}$【见附录C】,因此有
\begin{align}
Y_{n}=\lim\limits_{n\rightarrow \infty}\frac{\sum\nolimits_{i=1}^nX_i-n\mu} {\sqrt{n}\sigma}\sim \mathcal{N}(0,1)
\end{align}

Remarks

  1. 本文所介绍的中心极限定理,是独立同分布的中心极限定理。这里假设$n$个相互独立的随机变量具有相同的均值和方差,因此该中心极限定理的条件相对较强,这中类型的中心极限定理,也称为独立同分布的中心极限定理
  2. 若假设$n$个相互独立的变量,具有不同的均值和方差,即$\mathbb{E}[X_i]=\mu_i$,$D(X_i)=\sigma_i^2,(i\in[n])$。该情况为独立同分布的中心极限定理的扩展,称为李亚普诺夫定理。
  3. 中心极限定理告诉我们,当相互独立的变量个数足够多,且每个个体对总体的贡献在$n\rightarrow \infty$时,均可忽略不计时,那么这些随机变量的算术平均,服从高斯分布,这也是为什么噪声服从高斯分布,这种假设的合理性解释。

附录

A. 切比雪夫不等式

设随机变量$X$具有数学期望$\mathbb{E}[X]=\mu$,方差$DX=\sigma^2$,则对于任意的正数$\varepsilon$,有
\begin{align}
P\left\{ {|X-\mu|\geq \varepsilon}\right\}\leq\frac{\sigma^2} {\varepsilon^2}
\end{align}

证:设$X$的概率密度为$p_X(x)$,则有
\begin{align}
P\left\{ {|X-\mu|\geq \varepsilon}\right\}
&\leq \int_{|x-\mu|\geq \varepsilon} \frac{|x-\mu|^2} {\varepsilon^2}p_X(x)\text{d}x\\
&\leq \frac{1} {\varepsilon^2}\int_{-\infty}^{\infty} {(x-\mu)^2}p_X(x)\text{d}x\\
&=\frac{\sigma^2} {\varepsilon}
\end{align}

B. 特征函数性质的证明

  1. 若随机变量具有相同的特征函数,则它们具有相同的概率分布。
    :设随机变量$X$,$Y$具有相同的特征函数,即$\phi_X(t)=\phi_Y(t)$,则有
    \begin{align}
    \phi_X(t)=\int_{-\infty}^{+\infty} p_X(x)e^{itx}\text{d}x=\int_{-\infty}^{+\infty} p_Y(y)e^{ity}\text{d}y
    \quad \Rightarrow \quad p_X(x)=p_Y(y)
    \end{align}
    反之,亦成立。

  2. 独立同分布随机变量和的特征函数,等于每个随机变量特征函数的乘积。
    :设随机变量$X$,$Y$的特征函数分别为$\phi_X(t)$,$\phi_Y(t)$,令$Z=X+Y$,则随机变量$Z$的概率密度,可以由卷积公式得到
    \begin{align}
    p_Z(z)=p_X(x)*p_Y(y)=\int_{-\infty}^{+\infty}p_X(x)p_Y(z-x)\text{d}x
    \end{align}
    则随机变量$Z$的特征函数为
    \begin{align}
    \phi_Z(t)
    &=\int_{-\infty}^{+\infty} p_Z(z)e^{itz}\text{d}z\\
    &=\int_{-\infty}^{+\infty} \left({\int_{-\infty}^{+\infty}p_X(x)p_Y(z-x)\text{d}x}\right)e^{itz}\text{d}z\\
    &=\int_{-\infty}^{+\infty} \left({\int_{-\infty}^{+\infty}p_X(x)p_Y(y)\text{d}x}\right)e^{it(x+y)}\text{d}(x+y)\\
    &=\left({\int_{-\infty}^{+\infty}p_X(x)e^{jtx}\text{d}x}\right)\left({\int_{-\infty}^{+\infty}p_Y(y)e^{jty}\text{d}y}\right)\\
    &=\phi_X(t)\phi_Y(t)
    \end{align}

  3. 设$Z=aX$,则有$\phi_Z(t)=\phi_X(at)$。
    :设随机变量$X$的概率密度为$p_X(x)$,则随机变量$Z$的累积分布函数(CDF)可以表示为
    \begin{align}
    P(Z\leq z)=P\left({X\leq \frac{z} {a} } \right)=\int^{z/a}_{-\infty}p_X(x)\text{d}x
    \end{align}
    由于概率密度与累积分布函数互为导数关系,即
    \begin{align}
    p_Z(z)&=\frac{\partial P(Z\leq z)} {\partial z}=\frac{\partial } {\partial z}\int^{z/a}_{-\infty}p_X(x)\text{d}x=\frac{1} {a}p_X(z/a)
    \end{align}
    因此,随机变量$Z=aX$的特征函数,表示为
    \begin{align}
    \phi_Z(t)
    &=\int_{-\infty}^{+\infty} p_Z(z)e^{itz}\text{d}z\\
    &=\int_{-\infty}^{+\infty}\frac{1} {a}p_X(x)e^{it(ax)}\text{d}(ax)\\
    &=\int_{-\infty}^{+\infty}p_X(x)e^{i(at)x}\text{d}x\\
    &=\phi_X(at)
    \end{align}

C. 高斯分布的特征函数

设随机变量$X\sim \mathcal{N}(a,A)$,则其特征函数为
\begin{align}
\phi_X(t)=e^{ita-\frac{At^2} {2} }
\end{align}
特别地,当$X\sim \mathcal{N}(0,1)$时,有$\phi_X(t)=e^{-\frac{t^2} {2} } $。
:随机变量$X$的特征函数为
\begin{align}
\phi_X(t)=\int_{-\infty}^{+\infty} e^{itx} \frac{1} {\sqrt{2\pi A} } \exp\left[-\frac{(x-a)^2} {2A}\right]\text{d}x
\end{align}
作变量替换$y=\frac{x-\mu} {\sqrt{A} } $,即$x=\sqrt{A}y+\mu$,则
\begin{align}
\phi_X(t)
&=\int_{-\infty}^{+\infty} e^{it(\sqrt{A}y+\mu)} \frac{1} {\sqrt{2\pi A} } \exp\left(-\frac{y^2} {2}\right)\text{d}y\cdot \sqrt{A}\\
&=\frac{1} {\sqrt{2\pi} } e^{it\mu} \cdot \int_{-\infty}^{+\infty} e^{it\sqrt{A}y-\frac{y^2} {2} } \text{d}y\\
&=\frac{1} {\sqrt{2\pi} } e^{it\mu-\frac{At^2} {2} } \underbrace{\int_{-\infty}^{+\infty}e^{-\frac{(y-it\sqrt{A})^2} {2} } \text{d}y}_{(\text{I})}\\
&=e^{it\mu-\frac{At^2} {2} }
\end{align}
其中,对于$\text{(I)}$的值,我们可以利用概率的归一性进行计算,即
\begin{align}
\int_{-\infty}^{+\infty} \frac{1} {\sqrt{2\pi} } e^{-(y-a)^2/2}\text{d}y=1
\end{align}
因此,可以得到
\begin{align}
\int_{-\infty}^{+\infty} e^{-(y-a)^2/2}\text{d}y=\sqrt{2\pi}
\end{align}
值得注意的是,$\text{(I)}$中的均值部分为$it\sqrt{A}$,是虚数,但是积分是对实数变量$y$积分,实际上,$\int_{-\infty}^{+\infty}e^{-\frac{(y-it\sqrt{A})^2} {2} } \text{d}y=\int_{-\infty}^{+\infty}e^{-\frac{y^2} {2} } \text{d}y$,具体我们可以由复高斯概率密度得到。