Sau*_*abh 4 algorithm topic-modeling
我正在寻找 LDA 和 NTM 之间的区别。您将在 NTM 上使用 LDA 的一些用例是什么?
根据 AWS 文档:
LDA:Amazon SageMaker 潜在狄利克雷分配 (LDA) 算法是一种无监督学习算法,它试图将一组观察结果描述为不同类别的混合。LDA 最常用于发现文本语料库中文档共享的用户指定数量的主题。
虽然您可以同时使用 Amazon SageMaker NTM 和 LDA 算法进行主题建模,但它们是不同的算法,预计会对相同的输入数据产生不同的结果。
LDA和NTM有不同的科学逻辑:
SageMaker LDA(潜在狄利克雷分配,不要与线性判别分析混淆)模型的工作原理是假设文档是通过从有限的主题集中采样单词而形成的。它由 2 个活动部分组成:(1)每个主题的单词组成和(2)每个文档的主题组成
另一方面,SageMaker NTM没有明确学习每个主题的单词分布,它是一个神经网络,通过瓶颈层传递文档并尝试重现输入文档(根据AWS 文档,大概是变分自动编码器 (VAE) ) . 这意味着瓶颈层最终包含所有必要的信息来预测文档组成,其系数可以被视为主题
以下是选择其中之一的注意事项:
ml.c4.xlarge实例的临时集群。SageMaker LDA 目前仅支持单实例 CPU 训练。