Nab*_*abs 15 facebook scala apache-spark
嗨上周Facebook宣布Fasttext,这是一种将单词分类为桶的方法.Latent Dirichlet Allocation也是进行主题建模的另一种方式.我的问题是,有没有人在这2个中对pro和con进行任何比较.
我没有尝试过Fasttext,但根据我的经验,这里有很少的专业版和LDA版
临
迭代模型,支持Apache spark
接受文档语料库并进行主题建模.
不仅可以找出文档的内容,还可以找到相关文档
Apache spark社区不断为此做出贡献.早些时候,他们现在在ml库上使用了mllib
精读
需要很好地定义停用词.它们必须与文档的上下文相关.例如:"文档"是一个具有高频率出现的单词,可能位于推荐主题的图表之上,但它可能相关也可能不相关,因此我们需要更新该禁止词.
有时候分类可能无关紧要.在下面的例子中,很难推断出这个桶正在谈论什么
话题:
期限:纪律
期限:学科
期限:notestable
期限:中标
期限:途径
期限:chapterclosingtable
期限:元程序
期限:突破
期限:优
期限:救援
如果有人在Fasttext中做过研究,请您根据自己的学习情况进行更新?
fastText 提供的不仅仅是主题建模,它还是使用浅层神经网络生成词嵌入和文本分类的工具。\n作者表示其性能可与更复杂的 \xe2\x80\x9c 深度学习\xe2\x80\x9d 相媲美算法,但训练时间显着缩短。
\n\n优点:
\n\n=> 训练自己的 fastText 模型非常容易,
\n\n$ ./fasttext skipgram -input data.txt -output model
只需提供您的输入和输出文件、要使用的架构即可,但如果您希望稍微自定义您的模型,fastText 还提供了更改超参数的选项。
\n\n=> 在生成词向量时,fastText 会考虑称为字符 n-gram 的词的子部分,以便相似的词即使碰巧出现在不同的上下文中也具有相似的向量。例如,\xe2\x80\x9csupervised\xe2\x80\x9d、\xe2\x80\x9csupervise\xe2\x80\x9d 和 \xe2\x80\x9csupervisor\xe2\x80\x9d 都被分配相似的向量。
\n\n=> 先前训练的模型可用于计算词汇表外单词的单词向量。这个是我的最爱。即使您的语料库的词汇量是有限的,您也可以获得世界上几乎所有存在的单词的向量。
\n\n=> fastText 还提供了为段落或句子生成向量的选项。通过比较文档的向量可以找到相似的文档。
\n\n=> 还包括预测一段文本的可能标签的选项。
\n\n=> 官方存储库中提供了在维基百科上训练的约 90 种语言的预训练词向量。
\n\n缺点:
\n\n=> 由于 fastText 是基于命令行的,因此我在将其合并到我的项目中时遇到了困难,但这对其他人来说可能不是问题。
\n\n=> 没有内置方法来查找相似的单词或段落。
\n\n对于那些希望阅读更多内容的人,以下是官方研究论文的链接:
\n\n1) https://arxiv.org/pdf/1607.04606.pdf
\n\n2) https://arxiv.org/pdf/1607.01759.pdf
\n\n并链接到官方存储库:
\n\nhttps://github.com/facebookresearch/fastText
\n