机器学习-降维

降维

运用于数据压缩,减少冗余

运用于可视化,抓住关键数据,绘制2D、3D图像

15数据降维

#

高维特征的问题:
• 存在大量冗余的特征,降低了机器学习的性能
• 数据可视化问题
• 数据处理的维度灾难
降维的目的:
• 发掘高维数据的内在维度,得到更紧凑(低维)的数据表达

内在维度

内在维度:表征数据变化的自由变量的个数

线性降维:关于内在维度的线性子空间的降维问题
非线性降维:非线性子空间(流形)

线性降维

将d维的原始数据线性投影到𝑑′维子空间
• 通常 𝑑′ ≪ 𝑑
𝑑′维子空间(投影矩阵)的选择取决于任务的要求

有监督的降维

降维要求:
• 降维后的不同类别数据之间的差别最大化
LDA算法(Linear Discriminative Analysis):
• 最大化 类别间散度(scatter)与类别内散度的比值

无监督的降维

特点:数据没有类别标签
要求: 降维后保留尽可能多的原始数据的信息

PAC(主成分分析 )

principal components analysis 不是线性回归

PAC 是找到低维子空间(正交子空间 )来对数据进行投影(对所有 x一 视同仁,没有 y)以便最小化投影误差的平方,也就是min(点与投影后的点之间的距离)

老师版教学过程

最近重构性

数据样本到投影点的距离最近

PCA

PCA2

PCA3

最大可分性

数据样本的投影点之间尽可能分开

最大可分性

PCA的优化方法

PCA的优化方法

算法过程

PCA算法

吴恩达版教学过程

数据预处理

(1)特征放缩

(2)均值标准化

计算过程

Σ(大写的σ,不是求和符号)

(奇异值分解)svd( )数值上更稳定 再进行协方差计算时 结果等于 eig( )

z是降维后的U ,整个过程就是最小的平方投影误差 (数学证明复杂)

15计算过程1

15计算过程2

15计算过程3

主成分数量的选择

15 数量的选择1

15 数量的选择2

15 数量的选择3

压缩重现

得到压缩前数据的估计值

15数据重构

应用建议

(1)给监督算法加速

训练集利用PCA 建立 X 到 z 的映射,分类精度不会受影响

15加速监督算法

(2)错误用法 :防止过拟合

​ 因为PCA丢掉了一些关键信息

(3)错误用法 :设计机器学习系统时 不比较 使用PCA和不使用PCA的情况

线性降维的不足

• 线性降维基于欧式距离
• 欧式距离无法应用于非线性子空间(流形)

非线性降维

“流形”是在局部与欧氏空间同胚(等价)的空间,形象的说法:“一块可弯曲的橡皮擦”。换言之,它在局部具有欧氏空间的性质,在局部才能用欧氏距离来进行距离计算。
 “流形学习”是一类对分布在流形上的数据样本进行非线性降维的方法。

测地距离(Geodesic Distance)

• 测地距离衡量了流形(弯曲表面)上两点之间的最短距离
• 测地距离可以由两点之间的邻近点构成的最短路径来近似

测地距离

等度量映射(ISOMAP)

目标:降维后的样本保持原样本空间的测地距离
方法:基于测地距离的“多维缩放” (MDS)

非线性降维

核心步骤:

  1. 计算任意两样本之间的测地距离(最短路径算法,例如: Djikstar算法)
  2. 以所有样本间的测地距离矩阵作为输入,调用MDS算法
  3. ISOMAP算法

多维缩放(MDS: Multi-dimensional Scaling)

假定有m个样本,在原始空间中的距离矩阵为D ,其第i行j列的元素dist_i_j 为样本 X_i到 _j的距离。

目标: 在低维空间中保持原始数据样本之间的欧式距离

MDS的求解方法

MDS的求解方法

---------------- 本文结束 ----------------

本文标题:机器学习-降维

文章作者:Pabebe

发布时间:2019年08月02日 - 17:31:46

最后更新:2020年06月16日 - 18:24:34

原始链接:https://pabebezz.github.io/article/8226faf3/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

0%