这两年创业圈、技术圈、互联网圈都在热烈讨论人工智能、机器学习、深度学习。那么到底什么是人工智能(AI)、机器学习(ML)和深度学习(DL),这几个概念之间又有什么样的联系呢?首先,我们通过图来理解这三者之间的关系
多元实高斯分布对协方差的偏导
假设$N$维实随机矢量$\mathbf{x}$服从均值为$\mathbf{a}$,协方差为$\mathbf{A}$的高斯分布,记作$\mathbf{x}\sim \mathcal{N}(\mathbf{x}|\mathbf{a},\mathbf{A})$
\begin{align}
\mathcal{N}\left({\mathbf{x}|\mathbf{a},\mathbf{A} }\right)
=(2\pi)^{-\frac{N}{2} }|\mathbf{A}|^{-\frac{1}{2} }\exp \left({-\frac{1}{2}(\mathbf{x}-\mathbf{a})^T\mathbf{A}^{-1}(\mathbf{x}-\mathbf{a})}\right)
\end{align}
矩阵求逆引理及其证明
矩阵求逆引理,或者称Sherman-Woodbury-Morrison公式
\begin{align}
(\boldsymbol{A}+\boldsymbol{BC})^{-1}=\boldsymbol{A}^{-1}-\boldsymbol{A}^{-1}\boldsymbol{B}(\mathbf{I}+\boldsymbol{C}\boldsymbol{A}^{-1}\boldsymbol{B})^{-1}\boldsymbol{CA}^{-1}
\end{align}
其中$\boldsymbol{A}\in\mathbb{R}^{n\times n}$是非奇异矩阵,$\boldsymbol{B}\in \mathbb{R}^{n\times p}$, $C\in \mathbb{R}^{p\times n}$。
矩阵正态分布
正态分布
关于正态分布的由来,在文章《正态分布的前世今生》中写的很清楚,正态分布是由二项分布而来。正态分布的密度形式首次发现是在棣莫弗-拉普拉斯中心极限定理中。读者可以通过以下几个链接深入了解正态分布的含义
正态分布的前世今生(上)
正态分布的前世今生(下)
为什么正态分布如此常见
深度学习笔记之主成分分析
Definitions(定义)
主成分分析(principal components analysis, PCA)简称PCA,是一种广泛应用于数据降维(data dimensionality reduction)、有损数据压缩(lossy data compression)、特征提取(feature extraction)以及数据可视化等的一种技术,也被称为Karhunen-Lo`eve变换。
关于PCA的定义主要有两种:
- PCA是一种将数据投影到低维线性空间(principal subspace,主成子空间)使得投影之后的差异最大的正交投影。
- PCA是一种最小化平均投影成本(average projection cost),投影点与数据点之间的均方距离最小,即数据损失精度最小。
高斯噪声与中心极限定理
前言
在众多的信号处理学科领域,噪声一直是衡量算法或系统抗噪声性能的一种指标,笔者是通信专业的学生。对于一个通信系统而言,衡量一个通信系统的质量有两个最重要的指标,一个是有效性,一个是可靠性。有效性的衡量标准是传输带宽,而可靠性的衡量准则是误码率。在误码率的计算中,取决于信噪比和码间串扰等因素。另外,信噪比的定义是信号的能量与噪声的能量的比值。那么如何合理的用数学模型来描述噪声呢?
在长达四年的本科学习中,笔者发现,通信专业的书中一般假设噪声服从高斯分布(复信号服从循环对称高斯分布,其实部和虚部分别服从高斯分布)。笔者很是不解,为什么噪声是高斯的?记得在“通信原理”课上,当我问老师的时候,老师回答说“中心极限定理”。事实上,很多信号处理领域的学生一直不明白为什么噪声是高斯的,包括很多通信专业的学生。笔者觉得“为什么噪声是高斯的”这个问题是一个很重要的问题,它直接关系到绝大多数的理论的合理性。
克拉美-罗下界
估计量的衡量标准
对于参数估计问题,目前存在着很多估计算法。那么如何去衡量一个估计器(estimator, 也称估计量或估计算法)的性能,我们主要考量以下三个方面
- 无偏性(unbiased)。对于参数估计问题,设未知参数$\theta$,估计器模型$\hat{\theta}$。则有$\mathbb{E}[\hat{\theta}]=\theta$。对于估计对象为随机变量,则有$\mathbb{E}[\hat{\theta}]=\mathbb{E}[\theta]$。我们称满足这个条件的估计量为无偏估计量。
- 有效性(availability)。有效性刻画估计量到真实值的偏离程度,$D(\hat{\theta})=\mathbb{E}[(\hat{\theta}-\mathbb{E}[\hat{\theta}])^2]$,即若存在多种无偏估计器,我们称估计量方差最小的估计器是有效的。
- 一致性(consistency)。设$\hat{\theta}$为未知参数$\theta$的估计量,若当样本数$N\rightarrow \infty$时,对于任意$\epsilon>0$,有$\lim\limits_{N\rightarrow \infty} P\left\{ {|\hat{\theta}-\theta|<\epsilon}\right\}=1$。我们称$\hat{\theta}$与$\theta$是一致的。一致性所体现的是,当样本总数逐渐增加时,估计量逐渐收敛于真实值。
开通个人blog
学习的方法方式有很多种,做笔记是其中一种比较好的选择。我本人从大学本科阶段就有写一些学习笔记的习惯。从一开始是用word来记录,那时候还不会latex,所以用的是mathtype。这个工具比较容易上手,所见即所得嘛。那时候写写笔记,装装逼发给别人看看也确实会满足个人虚荣心,不过却实有帮助一些人。
到了研究生阶段,开始写blog。这一点主要是因为这时候我已经掌握了latex的代码编写规则。此外,刚好那时候,国内开始有一些博客论坛开始支持latex公式,所以在研一的时候,我开通了一个CSDN账号。CSDN那个账号到现在浏览量不是很多,但是所写的博客却也是我在学习过程中的积累。