深度学习笔记之人工智能、机器学习、深度学习之间的关系

Posted on 2018-11-03 | In 深度学习

这两年创业圈、技术圈、互联网圈都在热烈讨论人工智能、机器学习、深度学习。那么到底什么是人工智能（AI）、机器学习（ML）和深度学习（DL），这几个概念之间又有什么样的联系呢？首先，我们通过图来理解这三者之间的关系

多元实高斯分布对协方差的偏导

Posted on 2018-10-30 | In 基础数学

假设$N$维实随机矢量$\mathbf{x}$服从均值为$\mathbf{a}$，协方差为$\mathbf{A}$的高斯分布，记作$\mathbf{x}\sim \mathcal{N}(\mathbf{x}|\mathbf{a},\mathbf{A})$
\begin{align}
\mathcal{N}\left({\mathbf{x}|\mathbf{a},\mathbf{A} }\right)
=(2\pi)^{-\frac{N}{2} }|\mathbf{A}|^{-\frac{1}{2} }\exp \left({-\frac{1}{2}(\mathbf{x}-\mathbf{a})^T\mathbf{A}^{-1}(\mathbf{x}-\mathbf{a})}\right)
\end{align}

矩阵奇异值分解

Posted on 2018-10-29 | In 基础数学

Notations:

$\text{Diag}(\boldsymbol{x})$表示以矢量为矩阵对角线元素构成对角阵，如$\text{Diag}(a,b)=\left({
\begin{array}{cccc}
a&0
\\0&b
\end{array}
}\right)$；

粗体符号表示矩阵或者矢量，如$\boldsymbol{x}$表示矢量，$\boldsymbol{A}$表示矩阵。

矩阵求逆引理及其证明

Posted on 2018-10-29 | In 基础数学

矩阵求逆引理，或者称Sherman-Woodbury-Morrison公式
\begin{align}
(\boldsymbol{A}+\boldsymbol{BC})^{-1}=\boldsymbol{A}^{-1}-\boldsymbol{A}^{-1}\boldsymbol{B}(\mathbf{I}+\boldsymbol{C}\boldsymbol{A}^{-1}\boldsymbol{B})^{-1}\boldsymbol{CA}^{-1}
\end{align}
其中$\boldsymbol{A}\in\mathbb{R}^{n\times n}$是非奇异矩阵，$\boldsymbol{B}\in \mathbb{R}^{n\times p}$， $C\in \mathbb{R}^{p\times n}$。

矩阵正态分布

Posted on 2018-10-29 | In 基础数学

正态分布

关于正态分布的由来，在文章《正态分布的前世今生》中写的很清楚，正态分布是由二项分布而来。正态分布的密度形式首次发现是在棣莫弗-拉普拉斯中心极限定理中。读者可以通过以下几个链接深入了解正态分布的含义
正态分布的前世今生（上）
正态分布的前世今生（下）
为什么正态分布如此常见

深度学习笔记之主成分分析

Posted on 2018-10-29 | In 深度学习

Definitions（定义）

主成分分析（principal components analysis, PCA）简称PCA，是一种广泛应用于数据降维（data dimensionality reduction）、有损数据压缩（lossy data compression）、特征提取（feature extraction）以及数据可视化等的一种技术，也被称为Karhunen-Lo`eve变换。

关于PCA的定义主要有两种：

PCA是一种将数据投影到低维线性空间（principal subspace，主成子空间）使得投影之后的差异最大的正交投影。
PCA是一种最小化平均投影成本（average projection cost），投影点与数据点之间的均方距离最小，即数据损失精度最小。

高斯噪声与中心极限定理

Posted on 2018-10-29 | In 统计信号处理

前言

　　
在众多的信号处理学科领域，噪声一直是衡量算法或系统抗噪声性能的一种指标，笔者是通信专业的学生。对于一个通信系统而言，衡量一个通信系统的质量有两个最重要的指标，一个是有效性，一个是可靠性。有效性的衡量标准是传输带宽，而可靠性的衡量准则是误码率。在误码率的计算中，取决于信噪比和码间串扰等因素。另外，信噪比的定义是信号的能量与噪声的能量的比值。那么如何合理的用数学模型来描述噪声呢？
　
在长达四年的本科学习中，笔者发现，通信专业的书中一般假设噪声服从高斯分布（复信号服从循环对称高斯分布，其实部和虚部分别服从高斯分布）。笔者很是不解，为什么噪声是高斯的？记得在“通信原理”课上，当我问老师的时候，老师回答说“中心极限定理”。事实上，很多信号处理领域的学生一直不明白为什么噪声是高斯的，包括很多通信专业的学生。笔者觉得“为什么噪声是高斯的”这个问题是一个很重要的问题，它直接关系到绝大多数的理论的合理性。

克拉美-罗下界

Posted on 2018-10-28 | In 统计信号处理

估计量的衡量标准

对于参数估计问题，目前存在着很多估计算法。那么如何去衡量一个估计器（estimator, 也称估计量或估计算法）的性能，我们主要考量以下三个方面

无偏性(unbiased)。对于参数估计问题，设未知参数$\theta$，估计器模型$\hat{\theta}$。则有$\mathbb{E}[\hat{\theta}]=\theta$。对于估计对象为随机变量，则有$\mathbb{E}[\hat{\theta}]=\mathbb{E}[\theta]$。我们称满足这个条件的估计量为无偏估计量。
有效性(availability)。有效性刻画估计量到真实值的偏离程度，$D(\hat{\theta})=\mathbb{E}[(\hat{\theta}-\mathbb{E}[\hat{\theta}])^2]$，即若存在多种无偏估计器，我们称估计量方差最小的估计器是有效的。
一致性(consistency)。设$\hat{\theta}$为未知参数$\theta$的估计量，若当样本数$N\rightarrow \infty$时，对于任意$\epsilon>0$，有$\lim\limits_{N\rightarrow \infty} P\left\{ {|\hat{\theta}-\theta|<\epsilon}\right\}=1$。我们称$\hat{\theta}$与$\theta$是一致的。一致性所体现的是，当样本总数逐渐增加时，估计量逐渐收敛于真实值。

开通个人blog

Posted on 2018-10-27 | In 随笔

学习的方法方式有很多种，做笔记是其中一种比较好的选择。我本人从大学本科阶段就有写一些学习笔记的习惯。从一开始是用word来记录，那时候还不会latex，所以用的是mathtype。这个工具比较容易上手，所见即所得嘛。那时候写写笔记，装装逼发给别人看看也确实会满足个人虚荣心，不过却实有帮助一些人。

到了研究生阶段，开始写blog。这一点主要是因为这时候我已经掌握了latex的代码编写规则。此外，刚好那时候，国内开始有一些博客论坛开始支持latex公式，所以在研一的时候，我开通了一个CSDN账号。CSDN那个账号到现在浏览量不是很多，但是所写的博客却也是我在学习过程中的积累。