LSA - 特征选择

Kri*_*ers 3 machine-learning svd latent-semantic-indexing feature-selection latent-semantic-analysis

我有这个文件的SVD分解

SVD分解

我已阅读此页面,但我不明白如何计算文档分离的最佳功能.

我知道:

S x Vt 给出了文档和功能之间的关系

U x S 给出了术语和特征之间的关系

但最佳功能选择的关键是什么?

Ita*_*atz 5

SVD仅涉及输入,而不涉及其标签.换句话说,它可以被视为无监督技术.因此,它无法告诉您什么功能有利于分离,而不做任何进一步的假设.

它告诉你的是,在仅使用基础向量的子集重建原始数据方面,"基础向量"比其他向量更重要.

不过,您可以通过以下方式考虑LSA(这只是解释,数学是重要的):文档由多个主题组合生成.每个主题都由长度向量表示n,它告诉您该主题中每个单词的可能性.例如,如果主题是sports,那么单词喜欢footballgame更可能比bestsellermovie.这些主题向量是U的列.为了生成文档(A列),您可以采用线性的主题组合.线性组合的系数是Vt的列 - 每列告诉您生成文档时要采用的主题比例.此外,每个主题都有一个总体"增益"因子,它会告诉您这个主题在您的文档集中的重要程度(也许您只有一个关于1000个文档中的体育项目的文档).这些是奇异值== S的对角线.如果丢弃较小的那些,您可以用较少的主题表示原始矩阵A,并丢失少量信息.当然,"小"是一个应用问题.

LSA的一个缺点是,如何解释数字并不完全清楚 - 例如,它们不是概率.sports在文档中使用"0.5"单位是有意义的,但具有"-1"单位意味着什么?