模式识别导论复习
Ch1 - 线性回归
LASSO 问题
LASSO 问题:Least absolute shrinkage and selection operator.
给定连续可导的 Huber loss,当 近似一范数,
考虑 ,我们有:
证明考虑分类讨论 ,
,则 推出 ,此时极值 .
,则 推出 ,此时极值 .
,则 推出 ,此时极值 .
并且得到
也就是,
LASSO 问题可以写为矩阵表示的形式:
构建:
满足当 时,.
再构建:
满足 ,且 .
展开 得到
使用交替优化求解的想法。在第 次迭代算出 .
在第 次迭代, 只和第一项有关,即
只和平方项有关,
解释稀疏性,当 时,主要是主对角线元素起作用,
而 每次都是在向 靠近。
0 范数问题
零范数问题:
构造 Truncated norm(截断 2 范数),当 时,近似零范数。
构造 .
分类讨论极值点 ,可得:
,因为 在 点不可导,暂时设导数为 则 , 是未知数,此时
,则 推出 ,代入 可得等于 .
当 时,,当 时,. 因此
结论是:
交替迭代求解思路类似,这里给出结论:
Ch2 - 线性分类
Fisher Discrimination
正负样本中心:
投影后正负样本中心之间距离:
正负样本类间方差:
使用类间方差标准化中心距离:
使用矩阵简化:
那么问题等价于:
对分母做尺度的约束,
等价于广义特征值问题:
方法一 令 ,
转换为求 最大特征值。
方法二 展开可得:
那么,.
Logistic Regression
希望把分类结果 映射到一个属于 的概率值 ,我们可以采用
给定一个投影向量 ,则出现样本 的概率可以写为:
做极大似然估计,出现全体样本 的对数概率可以写为:
因此,我们希望最大化 ,求出对应的 ,可以使用 梯度下降 的方法。
BCE Loss
分布的熵:.
分布的交叉熵:.
KL 散度:.
当 是 ground-truth 分布(训练集), 是常数, 是模型计算出来的结果,且只存在两个分类,转换为二分类交叉熵损失:
逻辑回归相当于对每个样本的二分类交叉熵损失求和,需要最小化这个损失和。
Ch3 - SVM
SVM 模型

最大化间隔的分类器:
如果样本线性不可分,则问题不可解。

允许部分误分类的软间隔分类器:
其中 越大,误分类的程度越大。
SVM 对偶问题
将原问题约束条件写成 的形式:
分配拉格朗日变量 ,写出拉格朗日项:
写出 KKT 条件,包含四个部分:
Stationarity Condition:
Primal Feasibility Condition:
Dual Feasibility Condition:
结合 可得 .
Complementary Slackness Condition:
重组拉格朗日函数,并且代入 KKT 条件可得:
代入条件代入条件 其中,
因此对偶问题可以表示为:
通过对偶问题得到原问题参数
分别求出 的形式:
根据 以及互补松弛条件:

当 时, 推出 ,再代入
对应 完全分类正确。 时处于 1 区, 时处于 区。
当 时,, 成为支持向量:
当 时,,.
此时 ,对应 分类正确, 时处于 1,2 区的交接处, 时处于 3,4 区的交界处。
当 时,,.
此时因为 ,样本可能分类错误。
对于 的向量, 属于 支持向量 (SV)。 选择支持向量中 满足 的(为了避免选到分类错误的样本使得模型过拟合),此时 ,因为 ,所以 ,
最终选择的 是所有的 取平均:
:满足 的向量的个数。
Kernel Trick
使用非线性映射函数 ,从低维 映射到高维 .
SVM 分隔函数和对偶问题都可以用内积的形式表示:
因此可以令核函数 .
例如 ,可以看成:
从二维映射到六维。
高斯核函数推导
RBF(Radial Basis Function) Kernel / Gaussian Kernel
关键怎么展开 .
则:
Ch4 - 无监督学习
PCA
设 为样本点维数, 为样本点个数, 为 的矩阵,PCA 问题
对 PCA 进行理论解释,因为样本方差的无偏估计为:
因此 PCA 问题就是要求投影后向量 的方差尽量大。 的最大特征值对应的特征向量就是所求 .
PCA 过程
将 从 维降到 维,要求每维之间不相关也就是协方差为零。
去均值化 ;
.
得到特征值 .
取 Top 特征值和特征向量(模长为一):
满足 .
.
满足 ,并且 .
因此 是对角阵 。

CCA
是对同一个对象的不同观测(可能维度不同),希望 有高度的相关性,也就是投影结果 相关系数尽量大。
假设 ,对样本做零均值化,投影后 ,其中 .
计算其相关系数:
设协方差矩阵为 .
优化问题变为:
做尺度一致性的变化(类似于 Fisher Discriminant 的做法):
写出拉格朗日项:
对 和 分别求导:
可得 ,也就是:
因此,
矩阵 最大特征值对应的特征向量就是 .
EM 算法
高斯分布表达式:
高斯混合模型:
使用极大似然估计求解:
里面有求和符号,不好直接做,需要利用琴生不等式化简,具体推导过程省略,我们可以直观地来理解 EM 迭代求解的过程:
迭代获得 的值;
Expectation Step 根据 计算得到 .
:第 类高斯分布的先验概率。
: 第 个样本属于第 个高斯分布的概率。
保证 ,也就是一个样本一定属于某一类。
Maximization Step
的更新:
可以理解为频率估计概率。
的更新, 的更新:
可以理解为加权求和。
注:对于高维问题只有一点不同,这里的乘法改成协方差矩阵。
初始化方法
选择相同的 ;
使用聚类算法选择;
使用聚类簇方差。
Ch5 - 集成学习
AdaBoost

AdaBoost 流程:给定二分类的训练数据集,
输入:训练集 ,其中 .
输出:最终分类器 .
初始化训练数据的权值分布,代表 训练数据的重要程度:
对于 (迭代序数)
基本分类器 ,计算 在训练数据集上的分类误差率;
若分类错误 ,则为 1,再利用 做加权求和。
选择分类误差率最小的一个 .
计算 的系数;
更新训练数据集的权值分布。
| 分类正确 | 分类错误 |
---|
强分类器 | 权值降低 | 权值提升 |
弱分类器 | 权值提升 | 权值降低 |
构建 .
Ch6 - 决策规则
贝叶斯决策
基础为贝叶斯公式:
其中 为先验概率, 为样本 在 类中的概率分布。
考虑二分类问题, 分为 类还是 类,即计算:
定义决策函数为 ,则判断的类别 :
等价于最大化分类正确率。
决策面为 ,考试题会问高斯分布下的决策面是什么样子的。
最小风险贝叶斯决策
例如对于诊断病情的情景,设 代表无病, 代表有病,显然将有病诊断为无病损失更大,设损失矩阵 :
对角线元素 代表分类没有损失, 表示把有病的判断为没病的损失更大。
对于实际属于 类的 定义决策函数为:
最小化分类失误:
当 ,转换为普通的贝叶斯决策问题。
因为对于同一个样本 概率 不变,即 取最小等价于取决策函数 最大。
Neyman-Pearson 决策
两类错误率的定义:第一类错误率 代表实际是 类判断为 类,第二类错误率 代表实际是 类判断为 类。
NP 决策是在保证一类错误率为定值的前提下,使另一类错误率最小的两类决策问题。例如使 的条件下,使得 最小的决策。
举例子叮咚鸡:
将有病的病人判断为阴性影响更严重,比如我们希望 的有病病人都能够判断为阳性,而此时假阳性概率 希望控制最小,这就是 NP 决策的问题。我们再用图形直观地说明这个问题:
使用抗体浓度作为是否为阳性的依据,两类病人的抗体浓度分别服从正态分布。


如果想要降低第二类错误率(橙色区域),则必须移动分类依据 (在高维的情况是分类平面),移动之后就会提高第一类错误率,两类错误率是此消彼长的关系,因此必然存在一个使得 而 最小的 .
求解 NP 决策问题,我们可以使用拉格朗日法:

代入拉格朗日极值条件:
分界面 满足:.
将 未知值代入 ,可以解得 .