维数降低意味着什么?

Yas*_*een 14 artificial-intelligence terminology machine-learning data-mining

维数减少究竟意味着什么?

我搜索了它的含义,我发现它意味着将原始数据转换为更有用的形式.那么以有用的形式提供数据有什么好处,我的意思是我如何在实际生活中使用它(应用程序)?

Adi*_*rji 35

维度降低是关于将极高维度的数据转换为低得多维度的数据,使得每个较低维度传达更多信息.

这通常在解决机器学习问题时完成,以便为分类或回归任务获得更好的功能.

下面是一个人为的例子 - 假设你有100部电影和1000人的名单,每个人都知道他们是喜欢还是不喜欢100部电影.因此,对于每个实例(在这种情况下意味着每个人),您有一个长度为100的二进制向量[如果该人不喜欢第i部电影,则位置i为0,否则为1].
您可以直接在这些矢量上执行机器学习任务..但您可以决定5种类型的电影并使用您已有的数据,确定该人是喜欢还是不喜欢整个类型,从而减少您的数据从大小为100的向量到大小为5的向量[如果人喜欢类型i,则位置i为1]

长度为5的向量可以被认为是长度为100的向量的良好代表,因为大多数人可能只喜欢他们喜欢的类型的电影.

然而,它不会成为一个确切的代表,因为可能存在一个人讨厌除了一个以外的所有类型的电影.

关键是,减少的向量传达大的信息中的大部分信息,同时消耗更少的空间并且更快地计算.

  • 也许值得注意的是,这是"人为的"部分是因为我们习惯的类型与矩阵分解所能找到的模式有点不同.因此,我们得到的结果不是"喜剧","惊悚片","卡通片",而是在http://www.timelydevelopment.com/demos/NetflixPrize.aspx中看到的那些结果 - 这些都不是官方提供的尺寸标签,但是从"10岁的男孩会看什么"到"自由女人会看什么",或者(他们的第一个维度)"Offbeat/Dark-Comedy"到"Mass-Market /"Beniffer ' 电影". (8认同)

Cru*_*han 8

你的问题有点模糊,但是有一种有趣的统计技术可能就是你所谓的主成分分析,它做了类似的事情(偶然地绘制了我的第一个真实世界编程任务的结果)

这是一种巧妙但巧妙的技术,非常广泛适用.我将它应用于蛋白质氨基酸序列之间的相似性,但我已经看到它用于分析从细菌到麦芽威士忌之间的关系.

考虑一个事物集合的某些属性的图表,其中一个具有两个独立变量 - 分析这两个上的关系显然在两个维度上绘制,您可能会看到点的分散.如果您有三个变量,则可以使用3D图形,但之后会开始耗尽尺寸.

在PCA中,可能有几十个甚至一百个或更多个独立因子,所有这些都需要在垂直轴上绘制.使用PCA可以做到这一点,然后分析得到的多维图,找到图中包含最大信息量的两个或三个轴的集合.例如,第一主坐标将是复合轴(即,通过n维空间的某个角度),当沿着它绘制点时,其具有最多的信息.第二个轴与此垂直(记住这是n维空间,所以有很多垂线),其中包含第二大信息量等.

在2D或3D中绘制结果图通常会为您提供包含原始数据集中大量信息的数据的可视化.通常情况下,该技术被认为是有效的,可以查找包含大约70%原始数据的表示 - 足以可视化关系,并且在原始统计数据中不会显现出一些信心.请注意,该技术要求所有因素具有相同的权重,但鉴于它是一种极其广泛适用的方法,值得更广泛地了解并且在大多数统计软件包中都可用(我在1980年的ICL 2700上完成了我的工作 - 这是和iPhone一样强大)


Yin*_*Zhu 2

http://en.wikipedia.org/wiki/Dimension_reduction

也许你听说过PCA(主成分分析),这是一种降维算法。

其他包括LDA、基于矩阵分解的方法等。

这是一个简单的例子。您有很多文本文件,每个文件都包含一些单词。这些文件可以分为两类。您希望将文件可视化为 2D/3D 空间中的一个点,以便可以清楚地看到分布。因此,您需要进行降维,将包含大量单词的文件转换为仅 2 或 3 维。

  • 对 PCA 的非常好的介绍,具有“恰到好处”的特征值/向量背景:http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf (2认同)