使用Word2Vec进行主题建模

use*_*735 15 nlp topic-modeling word2vec

我已经读过,最常用的主题建模技术(从文本中提取可能的主题)是Latent Dirichlet分配(LDA).

但是,我感兴趣的是,尝试使用Word2Vec进行主题建模是一个好主意,因为它会在向量空间中聚集单词.因此,不能将集群视为主题吗?

你认为为了一些研究而采用这种方法是否有意义?最后我感兴趣的是根据主题从文本中提取关键字.

NQD*_*NQD 9

您可能需要查看以下文章:

Dat Quoc Nguyen,Richard Billingsley,Lan Du和Mark Johnson.2015. 使用潜在特征词表示改进主题模型.计算语言学协会的交易,第一卷.3,第299-313页.[ 代码 ]

杨柳,刘志远,蔡达生,孙茂松 2015. 主题词嵌入.在第29届AAAI人工智能会议的会议记录中,2418-2424.[ 代码 ]

第一篇论文将词嵌入集成到LDA模型和每个文档的一个主题DMM模型中.它报告了主题一致性,文档聚类和文档分类任务的重大改进,特别是在小型语料库或短文本(例如推文)上.

第二篇论文也很有趣.它使用LDA为每个单词分配主题,然后使用Word2Vec根据单词及其主题学习单词嵌入.


Tho*_*N T 0

在Word2Vec中,考虑3个句子
\n\xe2\x80\x9cthe狗看到一只猫\xe2\x80\x9d,
\n\xe2\x80\x9cthe狗追逐猫\xe2\x80\x9d,
\n\xe2\x80 \x9c猫爬上了树\xe2\x80\x9d
\n这里我们给出输入单词“cat”,然后我们将得到输出单词“climbed”

\n\n

它基于给定上下文单词(cat)的所有单词的概率。它是一个连续的词袋模型。我们将根据上下文得到与输入单词相似的单词。Word2Vec 仅适用于大数据集。

\n\n

LDA 用于从语料库中抽象主题。它不是基于上下文。因为它使用狄利克雷分布在主题上绘制单词并在文档上绘制主题。我们在这里面临的问题是随机性。我们每次都会得到不同的输出。

\n\n

我们选择的技术取决于我们的要求。

\n