scikit-learn中文本数据的监督降维

fol*_*oof 12 python machine-learning dimensionality-reduction scikit-learn

我正在尝试使用scikit-learn对自然语言数据进行一些机器学习.我已将我的语料库转换为词袋向量(采用稀疏CSR矩阵的形式),我想知道是否在sklearn中有一个监督维数降低算法能够获取高维,监督数据并进行投影它进入一个较低维度的空间,保留了这些类之间的差异.

高级问题描述是我有一个文档集合,每个文档都可以有多个标签,我想根据文档内容预测哪些标签会被打到新文档上.

在它的核心,这是一个受监督的,多标签,多类问题,使用BoW向量的稀疏表示.sklearn中是否存在可以处理这类数据的降维技术?在scikit-learn中使用受监督的BoW数据时,是否还有其他类型的技术?

谢谢!

Ste*_* P. 1

您可以使用潜在狄利克雷分配(此处是wiki)来发现文档中的主题。为了将标签分配给文档,您可以使用文档标签的条件概率分布(给定文档中主题的分布)。如果您的文档已经有标签,那么您只需要学习 CPD,这很简单。不幸的是,scikit-learn 没有 LDA 实现,但gensim有。

PS:这是另一篇可能有帮助的论文。如果您不太精通统计推断/学习或机器学习,我建议您从这里开始(注意:它仍然假设具有高水平的数学成熟度)。